1 Bombenteile
Was ist ein Modell?
Es war ein heißer Nachmittag im August 1946. Für Lou Boudreau, den Teamkapitän des Baseball-Clubs Cleveland Indians, war es ein miserabler Tag. Im ersten Match eines Doubleheaders hatte Ted Williams beinahe im Alleingang Boudreaus Mannschaft deklassiert. Williams, der wahrscheinlich größte Hitter seiner Zeit, hatte drei Homeruns abgewehrt und acht eigene zum Erfolg geführt. Die Indians verloren das Spiel 10:11.
Boudreau musste etwas tun. Als Williams im zweiten Spiel zum ersten Mal auflief, formierten sich die Spieler der Indians neu. Boudreau, der Shortstop, lief hinüber an die Position, wo normalerweise der Second Baseman steht, und der Second Baseman zog sich ins Short Right Field zurück. Der Third Baseman wiederum ging nach links, um die entstandene Lücke zu füllen. Es war klar, dass Boudreau – vielleicht aus Verzweiflung – die gesamte Ausrichtung seiner Defensive verlagerte, um die Hits von Ted Williams in Outs zu verwandeln.1
Mit anderen Worten: Er dachte wie ein Data Scientist. Er hatte Rohdaten analysiert, die er zum größten Teil aus Beobachtungen gewonnen hatte: Meistens schlug Ted Williams den Ball ins Right Field. Boudreau passte seine Spieltaktik an – und es funktionierte. Die Fielders konnten eine größere Anzahl der mörderischen Line Drives von Ted Williams abfangen als im ersten Spiel (obwohl sie natürlich nichts gegen die Homeruns ausrichten konnten, die über ihre Köpfe hinwegsegelten).
Wenn man sich heute ein Major-League-Baseballspiel ansieht, wird man feststellen, dass die Defensive sich auf fast jeden Spieler so einstellt, als sei er Ted Williams. Während Boudreau nur beobachtet hatte, wohin Williams den Ball meistens schlug, weiß heute jeder Teammanager ganz genau, wohin jeder Spieler jeden Ball geschlagen hat, und zwar in der vergangenen Woche, im letzten Monat, in seiner gesamten Karriere, gegen Linkshänder, wenn er zwei Strikes hatte, und so weiter. Anhand solcher historischen Daten analysiert der Teammanager die aktuelle Lage und kalkuliert, welche Aufstellung die besten Erfolgschancen bringt. Und das hat manchmal zur Folge, dass ein Spieler weit auf die andere Seite des Spielfelds geschickt wird.
Die Defensive zu verlagern ist nur ein Teil einer viel größeren Frage: Was kann ein Baseball-Team tun, um die Wahrscheinlichkeit zu maximieren, ein Spiel zu gewinnen? Bei ihrer Jagd nach Antworten nehmen Baseball-Statistiker jede Variable, die sie quantifizieren können, genau unter die Lupe. Wie viel mehr ist ein Double wert als ein Single? Lohnt es sich, einen Bunt zu schlagen, um einen Runner von der First Base auf die Second Base zu bekommen – und wenn ja, wann?
Die Antworten auf solche Fragen werden gesammelt und fließen dann in ein mathematisches Modell eines Baseball-Spiels ein. Ein solches Modell ist ein Paralleluniversum der Baseball-Welt, jedes von ihnen ist ein komplexes Gewebe von Wahrscheinlichkeiten. Es berücksichtigt jedwede messbare Beziehung zwischen allen Elementen des Sports, von Walks über Homeruns bis hin zu den Spielern selbst. Der Zweck des Modells ist, in jeder kritischen Spielphase verschiedene Szenarien durchspielen und die optimale Taktik finden zu können. Wenn die Yankees einen rechtshändigen Pitcher ins Spiel schicken, um Mike Trout, dem Slugger der Angels, Kontra zu bieten, anstatt den aktuellen Pitcher im Spiel zu lassen, wie viel wahrscheinlicher ist es dann, dass sie damit Erfolg haben? Und wie wirkt sich das auf ihre Gewinnchancen insgesamt aus?
Baseball ist eine ideale Domäne für prädiktives mathematisches Modellieren. In seinem 2003 erschienenen Bestseller Moneyball schreibt Michael Lewis, dieser Sport habe schon immer Computer-Nerds angezogen.2 In früheren Jahrzehnten brüteten die Fans über den Daten auf der Rückseite von Baseball-Sammelkarten, analysierten die Muster von Carl Yastrzemskis Homeruns oder verglichen, wie viele Strikeouts Roger Clemens und Dwight Gooden zu verzeichnen hatten. Seit den 1980er-Jahren begannen dann professionelle Statistiker, ernsthaft zu untersuchen, was diese Zahlen – neben einer Lawine von anderen, die neu hinzugekommen waren – wirklich bedeuten: in welchem Zusammenhang sie zu gewonnenen Spielen stehen und wie ein Clubmanager bei minimalen Kosten den maximalen Erfolg seines Vereins erreichen kann.
Das Kunstwort »Moneyball« ist heute zu einer Chiffre für das Anwenden statistischer Verfahren in Zusammenhängen geworden, an die man lange Zeit eher mit Intuition und Bauchgefühl heranging. Doch Baseball kann als fundierte Fallstudie dienen – und es bildet einen nützlichen Kontrapunkt zu den toxischen Modellen der WMDs, die in immer mehr Bereichen unseres Alltags auftauchen. Baseball-Modelle sind fair, und zwar unter anderem, weil sie transparent sind. Jedermann hat Zugang zu den Daten und kann – mehr oder weniger – verstehen, wie sie interpretiert werden. Das Modell des einen Teams wird vielleicht Homerun-Hitter höher gewichten, ein anderes dagegen etwas niedriger, weil Slugger dazu neigen, sehr häufig Strikeouts zu schlagen. Aber in beiden Fällen ist die Anzahl von Homeruns und Strikeouts öffentlich zugänglich, sodass jede interessierte Person sie einsehen kann.
Baseball bietet außerdem statistische Stringenz. Seine Gurus können auf einen enormen Datenbestand zurückgreifen, der sich fast gänzlich auf die Performance der Spieler bezieht. Darüber hinaus sind diese Daten hochgradig relevant für die Ergebnisse, die sie vorhersagen wollen. Das mag offensichtlich klingen, aber wie wir im weiteren Verlauf dieses Buches noch sehen werden, fehlen den WMD-Entwicklern sehr häufig die Daten für genau die Verhaltensweisen, die sie am meisten interessieren. Also verwenden sie ersatzweise Näherungswerte oder Indikatoren. Sie errechnen statistische Korrelationen zwischen der Postleitzahl oder gewissen Mustern in der Ausdrucksweise einer Person und der Wahrscheinlichkeit, dass sie einen Kredit zurückzahlen oder einen Job gut erledigen wird. Solche Korrelationen sind diskriminierend, und manche von ihnen sind sogar illegal. Baseball-Modelle nutzen dagegen in der Regel keine Näherungswerte, weil sie auf Originaldaten wie Balls, Strikes und Hits zurückgreifen können.
Am wichtigsten ist jedoch, dass durch die durchschnittlich zwölf oder 13 Spiele pro Tag, die in der Saison zwischen April und Oktober stattfinden, ständig neue Daten produziert werden. Die Statistiker können die Ergebnisse dieser Spiele mit den Vorhersagen ihrer Modelle vergleichen, sodass sie sehen können, wo sie falsch lagen. Vielleicht sagten sie voraus, dass ein linkshändiger Reliever eine Menge Hits an rechtshändige Batter abgeben würde – aber trotzdem hat er sie fertiggemacht. In einem solchen Fall muss das Statistikteam sein Modell optimieren und den Grund für die falschen Prognosen finden. Hat die neue Wurftechnik des Pitchers seine Ergebnisse beeinflusst? Pitcht er abends besser? Was immer sie herausfinden, können sie wieder in das Modell einspeisen und es dadurch verbessern. Das ist die Funktionsweise eines vertrauenswürdigen Modells – es erhält ständige Rückmeldungen von dem jeweiligen Vorgang aus der realen Welt, den es zu verstehen oder vorherzusagen versucht. Die Umstände ändern sich ständig, und deswegen muss auch das Modell ständig angepasst werden.
Jetzt könnten Sie sich das Baseball-Modell ansehen, mit seinen Tausenden, unaufhörlich sich verändernden Variablen, und sich fragen, wieso wir es überhaupt mit dem Modell zur Beurteilung von Lehrern an den Schulen in Washington, D. C. vergleichen wollen. In dem einen wird eine ganze Sportart akribisch modelliert, und es wird ständig aktualisiert. Das andere Modell ist zwar nebulös, scheint aber doch hauptsächlich auf einer Handvoll Testergebnisse zu beruhen. Ist das wirklich ein Modell?
Ja, das ist es. Ein Modell ist letztlich nichts anderes als eine abstrakte Simulation eines wie auch immer gearteten Prozesses, sei es ein Baseball-Spiel, die Versorgungskette eines Ölkonzerns, die Aktionen einer ausländischen Regierung oder die wechselnden Besucherzahlen eines Kinos. Ganz gleich, ob das Modell in einem Computerprogramm abläuft oder in unserem Kopf – es nimmt das vorhandene Wissen und nutzt es, um in diversen Situationen die entsprechenden Reaktionen vorherzusagen. Jeder Mensch trägt in seinem Kopf Tausende Modelle mit sich herum. Sie sagen ihm, was er zu erwarten hat, und sie lenken seine Entscheidungen.
Hier ist ein formloses Modell, das ich jeden Tag anwende. Zu Hause bin ich dafür zuständig, das Essen für uns und unsere drei Kinder zu kochen – denn mein lieber Mann schafft es leider nie, daran zu denken, das Kochwasser für die Pasta zu salzen. Jeden Abend, wenn ich anfange zu kochen, modelliere ich innerlich und intuitiv die Vorlieben eines jeden Einzelnen meiner Lieben. Ich weiß, dass einer meiner Söhne sehr gerne Huhn mag (aber Hamburger nicht ausstehen kann), während ein anderer ausschließlich Pasta isst (mit reichlich Parmesan). Aber ich muss dabei auch bedenken, dass die Vorlieben von Menschen sich von einem Tag auf den anderen ändern können, was bedeutet, dass jede Veränderung mein Modell komplett aus der Bahn werfen kann. Eine gewisse Unsicherheit lässt sich nie ganz vermeiden.
Der Input für mein internes Koch-Modell sind mein Wissen...