Nur weil wir die Regeln nicht kennen, ist es nicht messy

Wie Missverständnisse und Big Data-Hypes entstehen, Teil X von sehr vielen.

Vieles vom falsch verstandenen Datenhype des letzten Jahrzehnts geht auf einen einflussreichen Aufsatz zurück. Viktor Mayer Schönberger und Kenneth Cukier haben 2013 ihre Vision von Big Data und N=All propagiert und auch in ein Buch gefasst. 

Die Kernthesen: Big Data und Data Science vermitteln neue Erkenntnisse. Korrelationen die sich auf eine ausreichend breite Datenbasis stützen, haben das Potenzial, Kausalität überflpssig zu machen – wir müssen nicht mehr verstehen, warum etwas passiert, wir können präzise vorhersagen, dass und wann es passieren wird. Und ausreichend große Datenmengen machen es auch verschmerzbar, wenn Daten nicht gut strukturiert sind – dank großer Rechenkapazität finden digitale Methoden auch so die richtigen Muster. 

Über die Idee, Kausalität durch Korrelation zu ersetzen und vor allem über deren Neuigkeitswert kann man streiten. Hat es wirklich Big Data, Data Science, Informatik und ein paar hundert Jahre Wissenschafts- und Philosophiegeschichte gebraucht, um zu wiederholen, was David Hume im 17. Jahrhundert schrieb? Aus Beobachtung entsteht keine Kausalität, egal wie oft wir etwas beobachten. 

Viel störender ist für mich aber, was Mayer Schönberger und Cukier für messy und unstrukturiert halten. Ihr Beispiel ist Sprache: Dank Big Data und KI können nun auch Sprache analysiert und verstanden werden; Übersetzungsprogramme und Chatbots können sinnvolle Sätze formulieren. 

Das ist eine eigenartige Sicht auf Komplexität und Unstrukturiertheit. Generationen von Linguisten haben Grammatikmodelle entwickelt, Strukturalisten gilt Sprache als Inbegriff der Organisation, die nach klaren Regeln funktioniert, Chomsky hat klar definierte Grammatikhierarchien zwischen unterschiedlich komplexen Sprachen definiert, InformatikstudentInnen müssen sich mit Automatentheorie beschäftigen, Programmiersprachen wenn in mehrere hundert Seiten langen Spezifikationen dokumentiert und formale Semantik beschäftigt sich unter anderem mit der faszinierenden Tatsache, dass dank der Klarheit von Sprachregeln immer wieder Neues formuliert werden kann, dass wir trotzdem verstehen – und dass Sinn und Unsinn auf verschiedenen Dimensionen sehr sauber getrennt werden können. 

Sprache ist Struktur.

Es ist aber nur schlüssig, dass der letzte Schub der Big Data- und KI-Euphorie auf solchen Missverständnissen gewachsen ist. Von diese gibt es viele.