Daten sind dumm, Fakten sind flach, und erst ein Kontext gibt ihnen einen Sinn - wobei es bereits ein willkürlicher Akt ist, einen solchen überhaupt herzustellen, schreibt Sascha Lobo in seiner neuesten Spiegel-Kolumne.
Daten allein, und sei ihr Bestand auch noch so “big”, sind also keine Garantie für ein Mehr an Wissen: Diese niemals zu unterschätzende Binsenweisheit hat mich an ein Papier der beiden Wissenschaftlerinnen Danah Boyd und Kate Crawford erinnert, das mir vor einigen Wochen in die Finger geraten ist und sich mit dem Thema Big Data auseinander setzt.
Boyd und Crawford werfen darin einen Blick auf sozialwissenschaftliche Studien, in denen mit Hilfe großer Datensätze Soziale Netzwerke im Internet untersucht werden, und wollen so einige grundsätzliche Dinge klarstellen: Daten seien eben nicht wegen ihrer schieren Größe so bemerkenswert, sondern wegen der Verknüpfungsmöglichkeiten, die unter ihnen bestehen, und wegen der Muster, die je nach Verknüpfungsweise dann zu erkennen sind.
Deshalb müsse man sich die Daten ganz genau, und die Weise, wie sie miteinander verknüpft sind, noch viel genauer anschauen, schreiben die beiden Autorinnen. Sie verweisen dafür auf Lawrence Lessig, der in seinem Buch Code (1999) behauptet, dass Systeme gemeinhin von vier Kräften konditioniert werden: dem Markt, dem Gesetz, sozialen Normen und der Struktur bzw. - im technologischen Falle - dem Code.
Dass diese Kräfte die Struktur eines Datenpaketes und damit die Möglichkeiten, irgendwelche Erkenntnisse aus ihm zu ziehen, maßgeblich beeinflussen, hätten einige Forscher offensichtlich vergessen, so Boyd und Crawford:
Big Data tempts some researchers to believe that they can see everything at a 30,000-foot view. It is the kind of data that encourages the practice of apophenia: seeing patterns where none actually exist, simply because massive quantities of data can offer connections that radiate in all directions.
“Six Provocations for Big Data” heißt ihr Essay und ich habe die sechs Punkte einfach mal lange zu einer deutschen Kraftbrühe eingekocht (und sehr frei und fast schon unanständig verkürzt übersetzt):
1. Automatische Forschung ändert die Definition von Wissen
Wir müssen die Verständlichkeitsmodelle (models of intelligibility) von Big Data hinterfragen, bevor sie zu neuen Orthodoxien werden.
Die spezialisierten Werkzeuge von Big Data haben ihre eigenen Limitationen und Restriktionen. Eine ist die Frage nach dem Faktor Zeit.
2. Ansprüche an Objektivität und Korrektheit führen in die Irre
Big Data macht viele soziale Räume quantitativ messbar, ist aber immer noch eine subjektive Wissenschaft; was sie quantifiziert, hat nicht zwingend etwas mit objektiver Wahrheit zu tun.
3. Größere Daten sind nicht immer bessere Daten
Quantität bedeutet nicht zwangsläufig Qualität, insbesondere wenn es um die Kombination mehrerer großer Datenpakete geht.
Der Wert von “Small Data” sollte nicht vergessen werden; in einigen Fällen sind zum Beispiel Fallstudien, die auf die Daten eines einzigen Individuums fokussieren, extrem wertvoll.
4. Nicht alle Daten sind gleichwertig
Kontext ist wichtig. Wenn zwei Datensätze ähnlich modelliert werden können, heißt das aber nicht automatisch, dass sie gleichwertig sind oder in der gleichen Weise analysiert werden können.
Daten sind nicht per se generisch: Obwohl sie gewinnbringend analysiert werden können, kann der Kontext durchaus das Gegenteil nahelegen.
5. Nur weil etwas erreichbar ist, muss es nicht ethisch sein.
Es git einen bemerkenswerten Unterschied zwischen in der Öffentlichkeit stehen und öffentlich sein, der von Big Data-Forschern selten anerkannt wird.
6. Limitierter Zugang zu Big Data verursacht neue digitale Trennungen
Nur große Social Media-Unternehmen haben den Zugriff auf wirklich große und vollständige Datensätze über menschliche Interaktion.
Das derzeitige Big Data-Ökosystem verursacht eine neue Art der digitalen Trennung: zwischen Big Data-Reichen und Big Data-Armen.