Perspektivierung als Kollateralschaden

Ein schönes Beispiel für Big Data: Daten werden erhoben und gespeichert, ohne dass die „Träger“ der Daten sich wirklich Rechenschaft darüber ablegen, was sie liefern, für wen und wofür ist die seit September 2017 online verfügbare neueste Heatmap von Strava. Diese Heatmap umfasst die ganze Welt – sie erinnert ein wenig an das Bild die Welt bei Nacht der NASA  – und kann auf der Strava Homepage angesehen werden, man kann in unterschiedliche räumliche Detaillierungen reinzoomen.

Die Eigendarstellung von Strava beschreibt den Datensatz folgendermaßen: „Our global heatmap is the largest, richest, and most beautiful dataset of its kind. It is a visualization of Strava’s global network of athletes.” (Drew 2017) Die Datendimensionen sind beeindruckend, u. a. umfassen sie 1 Mrd. Aktivitäten, 3 Billionen Punkte nach Längen- und Breitengraden, 27 Mio. km Gesamtdistanz, eine Gesamtaktivitätszeit von 200.000 Jahren und eine Erfassung von 5% der Landfläche auf der Erde (ebenda).

Ein junger, interessierter australischer Student hat den Datensatz bzw. die Karte genommen und mit anderen Karten – z. B. google earth – verschnitten und plötzlich wurden einige besondere Standorte sichtbar, offenbar vor allem amerikanische geheime oder auch nicht geheime Militärstandorte. Die Identifizierung der geheimen Orte ist naheliegenderweise ein Problem für die entsprechenden Akteure, die Offenlegung der sportlichen – teilweise auch anderer – Bewegungsmuster im Umfeld der Standorte nicht minder. “The situation shows how data collection can lead to unintended consequences.” (Kwai 2017)

“The Latest Data Privacy Debacle” nennt Zeynep Tufekci (2018) dieses Beispiel, ihrer Ansicht nach eine Folge der Tatsache, dass in der Regel bei den meisten Apps das Teilen der Daten ausdrücklich ausgeschlossen werden muss, die Regeleinstellung aber das Teilen ist. Sie hält das für eine zentrale Fehlkonzeption des amerikanischen Schutzes der Privatheit – wohl nicht nur der amerikanischen: „The privacy of data cannot be managed person-by-person through a system of individualized informed consent. Data privacy is not like a consumer good, where you click “I accept” and all is well. Data privacy is more like air quality or safe drinking water, a public good that cannot be effectively regulated by trusting in the wisdom of millions of individual choices. A more collective response is needed.“ (Tufeci 2018)

Der einzelne Datensatz ist in der Regel irrelevant, aber je mehr Datensätze verfügbar sind, um so mehr Informationen können daraus gewonnen werden. Häufig ist selbst bei der Berücksichtigung der Datenschutz- und Privatheitsregeln bei jedem einzelnen Datensatz durch die Verschneidung mit anderen Datensätzen eine Reindividualisierung der Daten möglich. Kwai (2018) zitiert in ihrem Artikel zwei Experten: “Danielle Cave, a senior analyst at the Australian Strategic Policy Institute, said that Twitter is playing an increasingly important role in open-source intelligence, the collection of sensitive information from publicly available sources.“ Und: “’A lot of geo-location, a lot of reflection can be derived from what’s out there in open-source’, Professor Blaxland said.”

Für den Forscher, für den, der an beliebiger Transparenz interessiert ist, sind solche Datensätze ein großes Geschenk. Da die meisten Daten mittlerweile georeferenziert sind, erlauben sie in Verbindung mit neuen Techniken der Visualisierung, vor allem der Kartografie, eine „Durchleuchtung“ räumlicher Prozesse, Dynamiken, Rhythmen, die auf individuellem Verhalten beruhen. Übertragen auf die Stadt (andere Beispiele werden in diesem Blog folgen) können sie das Verständnis dafür erhöhen, wie Städte funktionieren. Im besten Falle können die Erkenntnisse dazu beitragen, die Planung zu verbessern und Städte lebenswerter zu machen.

Allerdings werfen solche Datensätze und die damit verbundenen Untersuchungsmöglichkeiten eine Reihe von schwerwiegenden Fragen auf, die sich darauf beziehen, welchen Preis für diese Erkenntnisse wir zu zahlen sind bereit sind. Damit verbunden sind normative, ökonomische und machtpolitische Fragen verbunden, u. a.:

  • Wer hat die Rechte an den die Daten?
  • Wie wird die Verlässlichkeit der Daten überprüft?
  • Wer hat Zugang zu den Daten und zu welchem Preis?
  • Wer entscheidet über Rechte und Zugang?
  • Wer entscheidet über die Art der Nutzung?
  • Welche Erkenntnisse dürfen veröffentlicht werden?
  • Was darf/soll sichtbar gemacht werden? Was nicht?
  • Wer entscheidet darüber, nach welchem Verfahren?

Die Beantwortung dieser Fragen ist alles andere als trivial. Vorgelagert ist das Problem, dass häufig im Vorfeld der Bereitstellung von Daten niemand weiß, was mit Daten tatsächlich gemacht werden kann. Wenn man unterstellt, dass es Strava tatsächlich nur den Austausch von Athleten über Routen und Fitness etc. fördern will, dann ist das Resultat der Perspektivierung, die der australische Student vorgenommen hat, ein Kollateralschaden der Sammlung und Auswertung der Daten der Atlethen durch Strava. Durch die  Verknüpfung mit anderen Daten hat der Student den Blick gelenkt, durch den „Betrachtungswinkel“ hat er räumliche Besonderheiten sichtbar gemacht, wodurch Typologien von Standorten erkennbar wurden. Diese Sichtbarkeit oder Identifizierbarkeit von Standorten kann als ein Kollateralschaden für Akteure angesehen werden, die gar nicht wussten, welche Daten erhoben wurden und wozu sie (noch) eingesetzt werden können.

Ein ausführlicher Kommentar zum Artikel von Tufeci formuliert das Problem m. E. sehr treffend, deswegen sei er ausführlich zitiert (Tuvw Xyz 2018):

“Part of the problem with the ideal of individualized informed consent is that it assumes companies have the ability to inform us about the risks we are consenting to. They don’t. Strava surely did not intend to reveal the GPS coordinates of a possible Central Intelligence Agency annex in Mogadishu, Somalia – but it may have done just that. Even if all technology companies meant well and acted in good faith, they would not be in a position to let you know what exactly you were signing up for. (…)

A challenging feature of machine learning is that exactly how a given system works is opaque. (…) This further undermines the notion of informed consent, as we do not know which data results in what privacy consequences. What we do know is that these algorithms work better the more data they have. This creates an incentive for companies to collect and store as much data as possible, and to bury the privacy ramifications, either in legalese or by playing dumb and being vague. (…) data storage must move from being the default procedure to a step that is taken only when it is of demonstrable benefit to the user, with explicit consent and with clear warnings about what the company does and does not know.

While a perfect system with no trade-offs may not exist, there are technological avenues that remain underexplored, or even actively resisted by big companies, that could allow many of the advantages of the digital world without this kind of senseless assault on our privacy.”

Literatur

Kwai, Isabella (2018): What He Did on His Summer Break: Exposed a Global Security Flaw. In: New York Times 30. Jan. 2018 (letzter Zugriff 05.02.18)

Robb, Drew (2017): The Global Heatmap, Now 6x Hotter. Strava Hompage, Nov 1, 2017 (letzter Zugriff 05.02.18)

Triebert, Christiaan; Koettl, Christoph and Tiefenthäler, Ainara (2018): How Strava’s Heat Map Uncovers Military Bases. Video on New York Times 30.01.2018 (letzter Zugriff 07.02.18)

Tufekci, Zeynep (2018): The Latest Data Privacy Debacle. In: New York Times 30.01.2018 (letzter Zugriff 05.02.18)

Tuvw Xyz (2018): Comment on the contribution by Zeynep Tufekci. In: New York Times 31.01.2018 (letzter Zugriff 05.02.18)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.