Tumblelog by Soup.io
Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

February 07 2014

Müssen wir mit allem rechnen? Ein Lagebericht aus der Welt des Dataismus #1

Große Daten – bitte was? Der Begriff „Big Data“ geistert seit Monaten durch Artikel, TV-Sendungen  und Radiobeiträge. Die weitaus meisten von uns haben dennoch, zumindest laut mancher Studie, keinen blassen Schimmer, was damit gemeint sein könnte. Mit einer Artikelreihe wollen wir deshalb ein paar Scheinwerfer in den Datenanalyse-Wald richten. Denn die enthüllte Überwachungs-, ist eigentlich eine „Berechnungsgesellschaft“. Darin sind die Geheimdienste nur einige Akteure unter vielen. 

Klick. „Wir reden über Petabytes, Yottabytes, Zettabytes“, erklärt Kerrie Holley, „aber eigentlich haben wir noch zu wenige Daten“. Klick. „Muster lassen sich mit Hilfe von Mathematik begreifen“, sagt Jurij Paraszczak. „Und mit diesen Mustern lässt sich nicht nur verstehen, was gerade passiert, sondern auch was passieren wird.“ Klick. „Daten sind das, worin wir leben und was wir atmen“, schwärmt Emile Werr von der New Yorker Börse.

Klick.Big Data ermöglicht „einen tieferen Einblick, indem es Kundeninformationen und –verhalten stärker durchforstet“, erklärt eine Stimme. „Peters“ Bank hat mitbekommen, sagt der Sprecher, dass „Peter“  in der letzten Zeit mehrfach Geld für Haushaltsgegenstände ausgegeben hat. Die Bank kennt sein Ausgabeverhalten, Einkommen, seine  Kreditwürdigkeit und durch „Peters“ Social-Media-Verhalten weiß das Geldhaus außerdem, dass er gerne kocht und in Gourmet-Restaurants geht. Er wünscht sich einen neuen Herd. Seine Bank weiß, welchen „Peter“ gerne hätte. Sie erhöht seinen Dispokredit, damit er sich das teure Stück auch leisten kann.

Klick. „Linda“ geht zum Arzt. In einer „Big-Data-Welt“ hat „Dr. Patel“ einen „360 Grad Überblick über ihre Krankheitsgeschichte“. Mit ihrem Tablet-PC meldet sich „Linda“ im Fitnessstudio an. Dort notiert ein Trainer ihre Vitalfunktionen und andere „relevante“ Daten in dem von „Dr. Patel“ empfohlenen „Wellness“-System. Eine App überwacht ihre Trainingserfolge. In diese hat natürlich auch ihr Arzt Einsicht. „Gratuliere Linda!“, schreibt er seiner Patientin zur Motivation. „Jetzt solltest du anfangen, Vitaminpräparate zu nehmen.“ Natürlich macht sich „Linda“ gleich auf den Weg zu einer Apotheke – die ihr der programmierte Gesundheits-Guru in ihrer Tasche praktischerweise empfiehlt.

 

A wie Alles anders

Das alles sind Szenen aus Imagefilmen des IT-Unternehmens IBM. Im Youtube-Channel des US-Konzerns häufen sich echte und vermeintliche Experten, zufriedene Kunden und sonstige werbewirksam Lächelnde, die den verheißungsvollen Slogan „Let’s build a smarter planet“ an das Ende ihrer Geschichten über ihre „smart“ gelösten Probleme stellen. Mal handeln die Big-Data-Erzählungen von Bankgeschäften und Börsenkursen, mal von Tennis, Logistik oder der sogenannten „Sentiment Analysis“ (wie das funktioniert erklärt Anna). Oft geht es um „Muster“, „Echtzeit“, „Vorhersagen“ und immer um rasant wachsende Datenmassen. Bis 2020 soll sich das weltweite Datenvolumen alle zwei Jahre verdoppeln, schätzen die Marktbeobachter der International Data Cooperation (IDC). Bis 2020 werden die Maschinen, die uns umgeben, mal mehr und mal weniger durch unser Zutun, also Fotos, Klimadaten, Bewegungsprofile, Text, Kontonummern, Programmcode, Informationen über Verkehrsströme und Stromverbrauch mit einem Volumen von 40 Zettabyte erzeugt haben. Laut den Analysten soll das der 57-fachen Sandmenge aller Strände der Erde entsprechen – auch wenn das ein etwas absurder Vergleich ist.

Im Zeitalter der explosionsartigen Byte-Vermehrung eröffnet Big Data einen völlig neuartigen Zugang zu empirischer Erkenntnis. Der Hype-Begriff beschreibt das Phänomen der rasend schnell erzeugten Informationen. Big Data steht aber auch für das Technologienbündel, das einen „sinnvollen“ Zugang zum globalen Kommunikations-Chaos möglich machen soll. Denn der Panorama-Blick in den Full-Take-Datenhaufen befähigt zu Beobachtungen, die in der Welt der „Small Data“, der statistischen Stichproben, nicht nur zu teuer, sondern schlicht unmöglich waren.

Der IT-Branchenverband Bitkom spricht von den „V3“-Kriterien: Volume, Velocity, Variety. Bei Big Data geht es also darum große, unstrukturierte Datenmengen in eine Form zu bringen, die Zusammenhänge offenlegt. „Echtzeit“ und viele verschiedene Formate, wie Tweets, Texte, Fotos, Protokolldaten (wer sich wann, wo eingeloggt etc.) und Ähnliches ermöglichen so das „Erkennen von Bedeutungen, Mustern, Vorhersagen“. Manchmal wird noch ein viertes „V“-Kriterium angefügt: Veracity. „Wahrhaftigkeit“, was hier bedeutet, dass mittlerweile Mechanismen möglich sein sollen, die sehr viele Daten auf ihre „Richtigkeit“ und „Vertrauenswürdigkeit“ hin prüfen können. Andere, wie etwa der Big-Data-Optimist Viktor Mayer-Schönberger sehen eine Kernkompetenz der Massenrechnung gerade darin, dass die schiere Informationsmenge den einen oder anderen Fehler automatisch ausgleicht.

Die Nutzer der Technik sehen „die Welt, wie sie wirklich ist“, behauptet der Rechtsprofessor Mayer-Schönberger. Das heißt im Gegenzug, dass die Nicht-Nutzer mit ihrer technisch bedingten Verblendung leben müssen. Das strukturelle  Unwissen mag im Fall von Klimaanalysen, Transportlogistik, Physikexperimenten und sonstigen Expertendomänen vertretbar sein. Oft geht es bei der Datenanalyse aber nicht um Prozesse, sondern um Individuen – und um deren Unterscheidbarkeit. In einer idealen Datenwelt dauern Vorstellungsgespräche genau null Minuten, denn der Algorithmus kennt Fähigkeiten, Charakter und Stellenprofil und kann alle Informationen effizient miteinander in Beziehung setzen. Dadurch entsteht ein Machtgefälle, hier vielleicht abgelehnte Bewerbungen, deren Grund die Betroffenen nicht erfahren und nicht einmal mehr erahnen können. „Von da an kann man auf das Geständnis des Angeklagten völlig verzichten, der über sein Verbrechen weniger wüßte [sic] als der Computer“, schrieb der Geschwindigkeits-Theoretiker Paul Virilio schon 1980 über die Anfänge der Rasterfahndung. Reichlich 30 Jahre später macht „Predictive Policing“ Virilios Statement zur visionären Aussage:  „Wer nicht mehr über die „Wahrheit“ verfügt, hat nichts mehr zu gestehen.“

 

A wie Alte News?

Aber zurück zu IBM. Mit einem jährlichen Umsatz von etwa 100 Milliarden US-Dollar und Nettogewinnen von rund 16 Milliarden, ist der US-Konzern globaler Marktführer im Hard- und Softwarebereich. Auch mit seinen Angeboten zur Auswertung von Verkehrs-, Kriminalitäts- und sonstigen Datenbergen liegt das Unternehmen weit vor Big-Data-Konkurrenten wie Amazon oder Microsoft.

Glaubt man dem Bitkom-Verband, dann ist der Hype um die Ganzheitsanalyse noch lange nicht vorüber. Rund 22 Milliarden US-Dollar, so die Prognose, sollen Unternehmen 2016 weltweit mit den  Analyse-Technologien erwirtschaften (das Beratungsunternehmen McKinsey geht für 2017 von 53 Milliarden US-Dollar aus). Das klingt vergleichsweise wenig. Eigenbauer wie etwa Google, das mit der Sofortwerbe-Schalte AdWords (und dem Tracking und der Analyse, die dazu gehören)  einen Großteil seines Umsatzes einfährt, sind in diese Zahl allerdings nicht eingerechnet.

Naja, dürften einige einwenden, wer bei Google Trends die zwei kurzen Wörter sucht, also Big Data mit Big Data analysiert, erkennt, dass das Phänomen nicht mehr ganz taufrisch ist. Schon vor knapp zehn Jahren hat Google angefangen, Bücher zu scannen, aus Sätzen Bedeutung abzuleiten und an der Übersetzungssoftware Translate zu basteln. Nimmt man die Suchanfragenstatistik als einen möglichen Indikator für Interesse (zumindest das der Google-Nutzer), dann verrät das Diagramm auch, dass der Begriff erst seit 2011 etwas exzessiver in die PC-Tasten getippt wird. Der (vorläufige) Höhepunkt liegt demnach – passend zu den NSA-Enthüllungen – erst rund zwei Monate zurück. Und es besteht noch großer Erklärungsbedarf. Zumindest meinen laut Bitkom nur 14 Prozent der Deutschen zu wissen, was Big Data ist und wofür es gut oder – je nach Perspektive – auch schlecht sein soll.

Was ich hier für die nächsten Wochen plane, ist eine Artikel-Sammlung, die lose durch alphabetisch geordnete Kapitelüberschriften in Form gehalten wird. Kein Big-Data-Konversationslexikon. Auch deshalb nicht, weil ich diesem Text und auch den folgenden nicht den Anschein von Vollständigkeit oder erschöpfender Systematik geben möchte. Warum dann dieses Format?

  • Das Thema ist so umfangreich, dass es nicht schwer war, ziemlich schnell Unterpunkte für alle Buchstaben zu finden – genau diese Vielschichtigkeit möchte ich darstellen.
  • Buchstabenlisten verraten sofort, dass ihnen kein echtes, inhaltliches System zugrunde liegt. Das finde ich prima. So kann ich auf Aktuelles und Zufallsfunde eingehen.

 

„Game-changing“ – revolutionär – diesen Ausdruck verwenden die Daten-Propheten auffallend oft. Im Gesundheits- und Versicherungswesen, im Finanz- und Mediensektor und in anderen Branchen sollen die Karten durch Big Data mehr oder weniger neu verteilt werden, weissagen die vermeintlichen Profiteure in Goldgräberstimmung. „Game-changing“ für den Blick, den wir auf dieses gesellschaftliche Phänomen werfen sollten, war allerdings auch die Geheimdienst-Affäre.
„Wir wollen wissen, was sie denken, bevor sie es selbst wissen“, zitierte Sascha Lobo vor einigen Wochen den Google-Verwaltungsratschef Eric Schmidt in einer Gesprächsrunde im Deutschandradio. Schmidt soll dieses Konzern-Ziel bei der Einführung der Analyse-Schleuder Google Now von sich gegeben haben. „Und das ist ein Satz, den eins zu eins auch General Alexander von der NSA hätte sagen können“, zog Lobo die Verbindung zu den Geheimdiensten. NSA-General Keith Alexander sprach zumindest vom Heuhaufen, den man bräuchte, um die Nadel zu finden. Und genau das ist die Logik von Big Data.

Spätestens seit einige Medien Einsichten in die Snowden-Dokumente hatten, wissen wir,  dass wir nicht nur in einer Überwachungs-, sondern auch in einer „Berechnungsgesellschaft“ leben, heißt es bereits im Vorwort von „Big Data. Das neue Versprechen der Allwissenheit“.  In dieser ist das oberste Ziel die Vorhersage menschlichen Handelns. Und Menschen können Produkte kaufen – oder aber Anschläge planen.

 

A wie Algorithmus

„Sie selbst können das eigentlich nicht mehr abschätzen.“ Das war die Antwort auf meine Frage, ob ich noch sinnvollerweise behaupten könnte, „nichts zu verbergen“ zu haben. Die Einschätzung kam von jemandem, der sich auskennt – von einem Informatikexperten, der im Bereich „Informationssysteme“, zu „Data-Profiling“, „Data-Fusion“ und „Maschinelles Lernen“ forscht. Hört sich paradox an? Das könnte man meinen, schließlich sollte ich selbst doch als erstes merken, wann und ob ich militante Ideen entwickle. Weit gefehlt. Fatale Rechenfehler haben manche schon bitter spüren müssen.

Etwa der Kanadier Saad Allami, der durch den Begriff „wegsprengen“ in einer SMS völlig ungerechtfertigt „Opfer der US-amerikanischen Rasterfahndung modernster Ausprägung“ wurde. Der Vertriebsmanager eines kanadischen Telekommunikationsunternehmens wollte durch das französische Wort „exploser“ nur seine Kollegen motivieren, eine möglichst durchschlagende Präsentation zu halten. Zu einem Terror-Anschlag wollte er hingegen niemanden anstiften. Aber die „Echtzeit-Analyse des US-amerikanischen Auslandsgeheimdiensts konstruierte offensichtlich aus der marokkanischen Herkunft, der abgefangenen SMS mit dem Begriff „explodieren“ und einer Truppe Einreisender als Empfänger der Nachricht eine Terrorwarnung“.

Ein Algorithmus hatte also nicht nur ein einzelnes Keyword gefunden, sondern ein Muster aus Herkunft, Adressaten und Sprache gebastelt. Dummerweise ein falsches. Das war 2012 – vor den NSA-Leaks. Damals hätte man zumindest mutmaßen können, dass Programme wie „Dishfire“ und „Prefer“ existieren, die Metadaten aus SMS-Texten herausrechnen („content derived metadata“) und mit anderen Informationen verbinden.
Big Data ist eigentlich die Kunst des computergestützten Lückenfüllens. Wenn bei einer großen Zahl von Personen immer wieder die Fakten A, B, C, D und E zutreffen (und die „Data-Mining“-Software dieses Muster erkennt), rechnet das Programm bei der nächsten Person (oder Kreditkartentransaktion, Verkehrsaufkommen, kollidierende Atomkerne) auf die A bis D zutrifft fest damit, dass auch E stimmt. Egal ob E in der Gegenwart (sexuelle Orientierung, politische Einstellung, psychische Krankheiten) oder in der Zukunft (Kaufabsicht, Krebsrisiko) liegt.

Das Füllen der Erkenntnis-Leerstellen geht mittlerweile ziemlich gut. Gesetzt den Fall, ich käme irgendwann auf die Idee, einen Systemumsturz zu planen. Wie ginge ich dabei vor? Da es mir an fundiertem Wissen über Revolutionen  mangelt, würde ich vorher gerne ein Buch zum Thema lesen. Je nachdem wo ich lebe, halte ich es allerdings für keine gute Idee „Widerstand für Anfänger – Theorie und Praxis“ im Internet zu kaufen (bedenklicher Exkurs hierzu). Ich gehe also in eine Buchhandlung. Mit EC-, Kredit- und sonstigen Karten zu bezahlen, schlage ich mir besser gleich aus dem Kopf. Bargeld ist allerdings auch keine gute Wahl, weil, je nachdem wer mir über die virtuelle Schulter schaut, sofort klar wäre, welches Buch ich wann gekauft habe. Sobald ich aus dem Laden trete, könnten Programme mein Smartphone-Bewegungsprofil mit der Datenbank der Buchverkäufe abgleichen.

Deshalb entscheide ich mich, das Buch zu kaufen und danach noch einen Kaffee in dem Laden zu trinken. Als ich nach einer Stunde doch nachhause will, hat mich der Algorithmus schon wieder. Denn in der Zwischenzeit haben andere Kunden genau zwei Bücher gekauft: „Allgemeine Chirurgie“ und ein Koreanischlehrbuch. Die Tools wissen aus anderen Überwachungskontexten, dass ich weder Medizinstudentin noch Chirurgin bin oder mich jemals für Korea interessiert habe. Deshalb geht der programmierte Spitzel davon aus, dass ich wohl eher Politisches plane. Das kann völlig falsch sein. Vielleicht habe ich nichts gekauft oder interessiere mich entgegen der Prognose doch für Knochenbrüche. Die Logik von Big Data besagt allerdings, dass andere Daten – Likes, Posts, Visits, Reisen nach Korea – jede Neigungen bereits verraten hätten. (Das Beispiel stammt nicht von mir, sondern von hier)

„Aber wir leben jetzt in einer Welt […], die immer häufiger von sich selbst replizierendem Code gemanagt wird“, schreibt FAZ-Mitherausgeber Frank Schirrmacher in seinem Anfang 2013 erschienen Buch „Ego. Das Spiel des Lebens“. Schirrmacher zerlegt auf knapp 300 Seiten eigentlich die paranoide Denk-Architektur des Kalten Krieges, die sich nun auch im ökonomischen Handeln widerspiegelt. Aber der Journalist bearbeitet auch jene Systeme, die Tweets von Nachrichtenagenturen „mitlesen“ und daraufhin Börsenverkäufe auslösen. Und was macht dieser Code? Zum Beispiel die Evolutionstheorie nachspielen.

Sogenannte „genetische“ oder „evolutionäre“ Algorithmen werden dadurch erzeugt, dass Ausgangscode anhand einer „Aufgabe“ (zum Beispiel soll ein Roboter etwas aufheben) erst geprüft, dann verworfen oder weiterverwendet wird. Das, was sich durchgesetzt hat, löst die Aufgabe erneut, wird erneut bewertet und wieder aussortiert. Das geschieht über viele „Generationen“. Was zum Schluss in der x-ten Variante herauskommt, fährt – im Fall des Roboters – nicht mehr ständig gegen Wände.  Oder es schlägt mir bei Facebook die Personen vor, die ich kennen könnte. Oder es sucht nach zusammen auftretenden Informationensmustern. Weil die Programme durch Auslese erzeugt werden, weiß zum Schluss allerdings „niemand mehr im Ansatz, wie diese Korrelation entsteht“. Die Evolutions-Metapher passt ziemlich gut. Wir laufen auf zwei Beinen. Warum? Weil sich das über Generationen hinweg mehr bewährt hat als andere Ideen.

 

A wie Apache Hadoop

Kaum ein anderes Bild könnte besser zu Big Data passen: Das Logo von Hadoop ist ein kleiner Elefant. Aus etwas Großem etwas Kleines, Erfassbares machen, so etwa könnte man den MapReduce-Algorithmus beschreiben, auf dem dieses freie Dateisystem der Apache-Foundation basiert. MapReduce ist die Grundlage vieler Big-Data-Systeme und zu den Nutzern von Hadoop-Anwendungen zählen Amazon, AOL, Ebay, Facebook, LinkedIn, Twitter, Yahoo aber auch Unternehmen, die sich etwa auf Gesichtserkennung („Facial recognition“) spezialisiert haben. Durch Hadoop bekommen viele Firmen – große und kleinere – die Chance riesige Web-Indices aufzubauen. MapReduce lässt sich gut darstellen, indem man sich ansieht, wie Google grundsätzlich (das heißt ohne personalisierte Suche und so weiter) Suchanfragen beantwortet. Google ist ein besonders gutes Beispiel, weil Mitarbeiter des US-Konzerns MapReduce vor zehn Jahren entwickelt haben.

Ganz vereinfacht gesagt, füttert man MapReduce mit Internetseiten, die Text enthalten. Jede dieser Seiten  bekommt eine Adresse, etwa „83“, und wird in die einzelnen Wörter zerlegt. So werden Paare aus Wort und Adresse erzeugt. Das ermöglicht Google, mir eine „Adressliste“ zum Thema „Sporttauchen“ auszuspucken. Die Idee lässt sich nicht nur für Google-Ergebnisse nutzen. Prinzipiell alles, was sich auf parallele Rechnungen aufteilen lässt, geht mit der MapReduce-Taktik. Wichtig für Big Data ist das Mengen-Management, das Hadoop möglich macht. Die Software verteilt die klein gehackten Sätze mit ihren Herkunfts-Nummern auf viele Server, die „Data-Nodes“. Dort werden sie gleichzeitig bearbeitet, was ziemlich effektiv ist.

Das ist die Architektur, freie Data-Mining-Programme sind von der Apache-Foundation aber auch zu haben. Zum Beispiel eines mit dem putzigen Namen „Pig“, das eigentlich im Auftrag von Yahoo entwickelt wurde. Und so hängt das alles, das Know-How um Big Data, miteinander zusammen. Denn Nutzer der Apache-Produkte sind auch Unternehmen wie Cloudera und Splunk, die explizit Regierungsbehörden beliefern. Der britische Geheimdienst GCHQ nutzt Splunk-Tools, um etwa Youtube, Facebook und Blogs in Echtzeit zu überwachen und „Trends“ und künftige Ereignisse, etwa drohende Proteste in Bahrain, aufzuspüren.

 

A wie Anonym

„Worin liegt der Freiheitswert der Privatsphäre? Und vor allem: Was passiert, wenn der Schutz der Unsichtbarkeit wegfällt?“, fragte Christian Heller schon vor drei Jahren in seinem Buch „Post-Privacy. Prima leben ohne Privatsphäre“. Sicher ist: Im Big-Dataismus lässt sich Anonymität aus dem angehäuften Datenberg potentiell wieder rausrechnen. Das nennt sich dann „De-Anonymisierung“, ein Konzept, das wir seit 30 Jahren kennen. In das Urteil zur Volkszählung schrieben die Richter des Bundesverfassungsgerichts schon 1983, dass es „unter den Bedingungen der automatischen Datenverarbeitung [...] kein belangloses Datum mehr gibt“. Heute erkennen uns Smartphones am Gang, Autositze am Sitzprofil , Stromzähler am Energiekonsum und Videokameras am Faltenwurf unserer Kleidung. Mit allem, was wir tun, produzieren wir nicht nur Finger-, sondern auch errechenbare „Verhaltensabdrücke“. Selbst unser Pulsschlag ist individuell. Und das ist aus Sicht vieler Firmen, Geheimdienste und Forscher ungemein praktisch. Denn Big Data funktioniert nur mit Kontext. Und genau dieser Kontext, der Datenhaufen, ist verräterisch. Klar, man kann der Informationssammlung eine andere Überschrift geben, einen Namen etwa durch ein Pseudonym ersetzen. Und trotzdem bleiben Wege offen, um Menschen zu reidentifizieren. Sogar, wenn nur pseudonymisierte Daten anderer „geknackt“ wurden.

Vor einigen Wochen hat Lance Bennett von der University of Washington an der Freien Universität Berlin einen Gastvortrag gehalten. Es ging um seine Forschungen zu Occupy Wall Street. Der Politikwissenschaftler hat den Protest auch mit Big Data-Technik erforscht, natürlich nur mit pseudonymisierten Daten. Big Data habe seine Forschung völlig verändert, sagte der Politikwissenschaftler damals. Wenn allerdings das FBI irgendwann vor den Universitätstüren stehen würde, müsste man wohl die Server vernichten, gab Bennett zu. Anonymität ist bei Big Data eine Frage der Rechenkapazität. Besonders wenn man wie der Forscher Daten von Twitter auswertet.

(Und bald geht’s weiter mit B, C, D…)

Wir wollen netzpolitik weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

February 03 2014

Im Ernst: Polizeien der EU-Mitgliedstaaten sollen Vorratsdaten des belgischen Finanzdienstleisters SWIFT beim US-Finanzministerium abfragen

SWIFT-Bank3Im vergangenen Herbst hatte die EU-Kommission ihre Berichte zum “Terrorist Finance Tracking System” (TFTS) bzw. dem “Terrorist Finance Tracking Program” (TFTP) vorgelegt. Das TFTP ist eher bekannt unter dem Begriff “SWIFT-Abkommen”: Seit 2010 existiert der erneuerte Vertrag zum transatlantischen Datentausch von Finanzdaten des belgischen Finanzdienstleisters SWIFT. Das US-Finanzministerium erhält auf Anfrage Informationen über internationale Finanztransaktionen, Stammdaten, Post- oder Mailadressen der KontoinhaberInnen oder deren Telefonnummern. Diese können dann zur Suche in weitere Vorratsdatenspeicherungen genutzt werden.

Reformistische GegnerInnen des EU-US-Abkommens forderten damals als Alternative die Errichtung eines gleichlautenden EU-Systems, das TFTS. Nach dem NSA-Skandal hatten andere KritikerInnen gefordert, das bestehende TFTP aufzukündigen. Auch das EU-Parlament stellte sich monatelang quer, linke und grüne Abgeordnete konnten immerhin einige Firewalls hineinverhandeln. Beschlossen wurde, nach drei Jahren Laufzeit zu prüfen, ob die EU eine eigene Finanzdatensammlung einrichten könnte. Dies allerdings mit dem klaren Ziel, dass US-Behörden weiterhin auf die Daten zugreifen können.

Die EU-Kommission kommt nun zu dem Schluss, dass ein neues, europäisches System zur Analyse von Finanzdaten keinen Mehrwert habe. Auch der Datenschutz könne nicht ohne größere Anstrengungen gewährleistet werden. Außerdem sei es in den USA gar nicht so schlecht darum bestellt. Allen Ernstes heißt es:

The extraction of the data on European soil instead of in the U.S. would not guarantee better protection of personal data per se.

Also sollen die Polizeien der EU-Mitgliedstaaten ihre Abfragen von Finanzdaten der belgischen Firma SWIFT lieber weiterhin über die USA ausführen. Über die Notwendigkeit der einzelnen US-Anfragen entscheidet übrigens die EU-Polizeiagentur Europol, die dafür eine eigene Abteilung eingerichtet hat. Pikant: Ein anderes Department von Europol fragt selbst immer häufiger Finanzdaten beim US-Finanzministerium ab.

Im Frühjahr soll das SWIFT-Abkommen erneut geprüft werden. Ende Februar wird über die Notwendigkeit des EU-Finanzdatensystems TFTS weiter beraten.

Zeitgleich zu den Papieren über das TFTP bzw. ein mögliches europäisches TFTS hatte die Kommission die Mitteilung “Wiederherstellung des Vertrauens beim Datenaustausch zwischen der EU und den USA” herausgegeben. Der “Datenaustausch zu Zwecken der Strafverfolgung” wurde dort ausgesprochen gelobt, die bestehenden Abkommen mit den USA als “wertvolle Instrumente im Umgang mit gemeinsamen Sicherheitsbedrohungen durch schwere grenzüberschreitende Kriminalität und Terrorismus” bezeichnet.

Weder das Abkommen zum Tausch von Passagierdaten noch zum Tausch von Finanzdaten sei laut der Kommission von US-Geheimdiensten missbraucht worden – jedenfalls hätten sich hierzu “keinerlei Hinweise” ergeben. Die Kommission gab sich brav mit der Zusicherung der USA zufrieden, dass “keine direkte Datensammlung, mit der gegen das Abkommen verstoßen worden wäre, erfolgt sei”.

Die Mitteilung enthält auch einen Passus, der die Begehrlichkeiten einer europäischen Schengen-Cloud nochmal ganz neu erklärt. Es geht um Big Data im Kapitalismus:

Der Wert personenbezogener Daten hat zugenommen: Im Jahr 2011 wurden die Daten von EU-Bürgern auf einen Wert von 315 Mrd. EUR geschätzt, und es ist von einem jährlichen Anstieg auf nahezu 1 Bio. EUR bis 2020 auszugehen. Der Markt für die Analyse sehr großer Datensätze steigt jährlich weltweit um 40%. Gleichzeitig ist mit der technologischen Entwicklung beispielsweise im Bereich des Cloud-Computings der internationale Datentransfer in den Mittelpunkt der Aufmerksamkeit gerückt, weil grenzüberschreitende Datenströme aus der alltäglichen Realität nicht mehr wegzudenken sind.

Wir wollen netzpolitik weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

January 08 2014

Deutsche Prioritätensetzung: Öffentliche Gelder für industrielle Big Data-Forschung (Update)

Heute fand in Karlsruhe die feierliche Ankündigung des “Smart Data Innovation Lab” statt. Im Rahmen des Projektes wollen Wissenschaft und Unternehmen gemeinsam “Spitzenforschung im Bereich Big Data” schaffen. “Neueste Forschungserkenntnisse” sollen “effizient an die Industrie weitergegeben werden und zu entscheidenden Wettbewerbsvorteilen für europäische Unternehmen beitragen.”, heißt es. Interessant wird es bei der Finanzierung. Ihre “Wettbewerbsvorteile” finanziert die Wirtschaft nicht etwa komplett selbst:

Die Finanzierung für das Zentrum sei noch nicht endgültig vereinbart und werde sich im Rahmen von einigen Millionen Euro bewegen, sagte Ministerialdirektor Wolf-Dieter Lukas vom Bundesforschungsministerium. Der wesentliche Beitrag werde von der Wirtschaft geleistet.

Dabei kann sich die Liste der Partner aus der Wirtschaft sehen lassen: Volkswagen, Bosch, BASF, Bayer, SAP – um nur einige der großen Namen zu nennen. Hier ist keine StartUp-Förderung aus öffentlichen Mitteln mehr nötig, wenn ihr mich fragt. Die ganze Sache wäre eigentlich nicht der Rede wert, wenn nicht:

1. …die “Stiftung Datenschutz” eine politisch gewollte Totgeburt wäre, die nach einem Jahr chronischer Unterfinanzierung nun in die Stiftung Warentest “integriert” werden soll (Koalitionsvertrag, S. 125).

2. …gesellschaftswissenschaftliche Grundlagenforschung zur Digitalisierung (und damit auch zu “Big Data”) in Deutschland kaum vorhanden, weil unterfinanziert wäre (vgl. die Debatte um die Finanzierung des Humboldt Instituts für Internet und Gesellschaft).

3. …die Bundesregierung bei der europäischen Datenschutzreform bremsen würde. Vielleicht ändert sich das ja unter dem neuen Innenminister.

Jeder öffentliche Cent, der im “Smart Data Innovation Lab” steckt, ist einer zu viel und ein Beweis für falsche Prioritätensetzung.

Update: Auf Nachfrage beim zuständigen Pressekontakt teilte man mir mit, dass in diesem Jahr zunächst der finanzielle Bedarf ermittelt werde, um dann zu entscheiden, welche Partner, welche Anteile tragen. Wo genau die vom Vertreter des Bundesforschungsministerium angedeuteten Mittel herkommen, die nicht aus der Wirtschaft stammen, sei noch nicht klar. Es könnte sich dabei sowohl um Landes- als auch um Bundesmittel halten. Ziel sei es allerdings, dass das Projekt später ohne öffentliche Mittel auskomme.

Wir wollen netzpolitik.org weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

December 04 2013

Neelie Kroes über Big Data, Überwachung und die Netzneutralität

Neelie Kroes zieht gerade durch die Landen und erzählt, was man alles tolles mit Big Data machen kann und welcher Voraussetzungen es dafür bedarf. Sie redet zwar vom offenen Internet, Netzneutralität meint sie damit aber nicht. Ihr Lösungsvorschlag für den Umgang mit Überwachung wirkt esoterisch.

Im Blog des World Econmic Forum hat die EU-Kommissarin für die Digitale Agenda die großen Themen Datenschutz, Überwachung und die Zukunft von Big Data kommentiert.

Wir produzieren jede Menge Daten, das ist kein Geheimnis. Das Buzzword heißt Big Data. Damit kann man allerlei Dinge anstellen, etwa Menschen prima überwachen. Das ist auch Neelie Kroes nicht entgangen und sie weist in ihrem Beitrag auch auf die Gefahren hin:

The scale of online surveillance is greater than many people ever realized. And it is a surprise to learn that even allies spy on each other. In this respect, I understand people’s fears.

Die Lösung dieses Problems wirkt allerdings recht esoterisch:

We should not sit like rabbits in the headlights in the face of scandals, or allow trust in the Internet to collapse.

Ihr Vorschlag zur Vermeidung dieses Kollaps:

Europe needs data protection, not data protectionism.

Der Datenprotektionismus ist nämlich sehr hinderlich, wenn es um die Nutzung von Big Data geht. Damit meint Kroes allerdings nicht die Abkommen mit den USA zur Weitergabe von Bank- oder Fluggastdaten, wo der Protektionismus durchaus angebracht wäre und gleichzeitig zum Datenschutz beitragen könnte sondern Kroes bezieht sich auf Dienste wie google translate. Dort macht Big Data auch Sinn, sonst würde der Dienst überhaupt nicht funktionieren. Damit wir auch alle diese Dienste nutzen können, erklärt Kroes auch, dass wir ein offenes, vernetztes und sicheres Europa brauchen. Zu diesem offenen Europa gehört aber auch die gesetzliche Verankerung der Netzneutralität, denn sonst können wir all die schönen Dienste eines Tages gar nicht mehr nutzen. Zwar hat sich Kroes in der Vergangenheit wortreich für die Netzneutralität eingesetzt, in ihrer kürzlich vorgeschlagenen Verordnung findet man jedoch das komplette Gegenteil einer gesetzlichen Verankerung der Netzneutralität.

Wir wollen netzpolitik.org weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

August 15 2013

“All Out PredPol” – Hersteller von Vorhersagesoftware mobilisiert Nachbarschaft zur “Verbrechensbekämpfung”

Mit dieser Karte sollen Polizeien und Nachbarschaftsgruppen in Santa Cruz heute

Mit dieser Karte sollen Polizeien und Nachbarschaftsgruppen in Santa Cruz heute “Verbrecher” fangen

Irgendetwas gemerkt, ist es sicher geworden auf den Straßen oder im Internet? Denn der heutige 15. August ist der “Internationale Aktionstag für polizeiliche Vorhersage” (“Predictive Policing International Day of Action”).

Die ulkige Ankündigung ist ernst gemeint und kommt von einer US-Firma, die sich im Bereich des Orakelns von unerwünschtem Verhalten etablieren will. Die Rede ist von PREDPOL, dem Start-Up einiger Wissenschaftler, die sich mit den Ergebnissen ihrer Forschungen an der UCLA-Universität Santa Clara selbständig gemacht haben.

PREDPOL konnte mehrere US-Polizeien zur Einführung der Software überreden, darunter die Departments Los Angeles, Seattle, Carlsbad und Santa Cruz. Inzwischen zählt auch die britische Grafschaft Kent zu den Kunden der Firma, die den Herstellern ähnlicher Systeme I.B.M. und Microsoft Konkurrenz machen will.

Die Software von PREDPOL greift auf Statistiken früherer Ereignisse zurück. Hierzu gehören verzeichnete Straftaten, aber auch eingegangene Notrufe deren Standorte geolokalisiert erfasst werden. Daraus werden “Hot Spots” generiert, die dann mit höherer Frequenz bestreift werden.

Die Polizei in Kent behauptet, man habe die Kriminalitätsrate dadurch bereits um 6% gesenkt. Nachprüfbar sind diese und andere Angaben nicht, eine belastbare Studie fehlt.

Datenbank zu Aufständen, Protesten und Friedensinitaiven

Um seine Marktführerschaft zu behaupten, kauft I.B.M. derzeit zahlreiche Firmen die auf eine sogenannte “Big Data-Analytik” spezialisiert sind. Ein seit 2006 von der Firma in Memphis genutztes System basiert auf Analyst’s Notebook, das in seiner rudimentären Form auch vom deutschen Bundeskriminalamt (BKA) eingesetzt wird.

Inzwischen ist es möglich, auch Daten aus Sozialen Netzwerken wie Facebook und Twitter in die Analysesoftware von I.B.M. einzubinden. Auch das BKA interessiert sich dafür. Bekannt ist diese Auswertung persönlicher Mitteilungen etwa aus Libyen, wo die NATO aus Tweets zukünftige Ereignisse ablesen wollte.

Derartige Systeme werden unter anderem von dem Informatiker Kalev Leetaru gehyped, der hierfür unter dem Namen “Global Data on Events, Location and Tone” (GDELT) eine Datenbank mit Millionen Einträgen zu Aufständen, Protesten und Friedensinitaiven errichtet. Ziel ist die Identifizierung von “Bedrohungen”. In einem Interview erklärt Leetaru dazu:

Meine Arbeit konzentriert sich auf die Analyse sowohl von Emotionen als auch von Verhaltensweisen. Den emotionalen Ton globaler Medienberichte heranzuziehen, um Konflikte und Stabilität zu analysieren, ist ziemlich neu. Fast jede Firma wertet heute den Tonfall in den Medien aus, um in Erfahrung zu bringen, was die Leute über sie denken, aber es gibt nicht viele, die mit dieser Methode versuchen, die globale Politik vorherzusagen.

Das Projekt von Leetaru wird mittlerweile auch in Deutschland verbreitet. Zu den Protagonisten gehört der selbsternannte “Sicherheitsberater” Florian Peil, der politische Ereignisse als ein “großes Datenproblem” umschreibt:

Immer geht es darum, bislang unerkannte Muster und Zusammenhänge im Datenchaos aufzuspüren, um auf diese Weise zu neuen Erkenntnissen zu gelangen. Dahinter steht der Gedanke, die reale Welt in Form von Daten nachzumodellieren – um dann zu sehen, was passiert, wenn diese Welt sich verändert. Enthusiasten sind sich sicher, dass die Auswertung der Vergangenheit bald einen Blick in die Zukunft ermöglicht. Für sie sind Gesellschaften und Geschichte einfach wie ein großes Datenproblem zu behandeln.

Auf der Verkaufsmesse “Europäischer Polizeikongress” hielt Peil dazu einen Vortrag im Panel zu “Cybercrime”. Seine Aussage: “Wir sehen hier eine enorme Menge an Inhalten. Die Relevanz dieser Inhalte ist aber nicht mitgewachsen”.

ARD auf Schnitzeljagd nach “Verbrechern”

I.B.M. bietet mittlerweile die Erweiterung seiner Plattformen um das System “Coplink” an. Damit können einzelne Polizeidirektionen auch Daten anderer Dienststellen abrufen, etwa wenn – auch ohne richterlichen Beschluss – eine Person oder ein bestimmtes Kennzeichen gesucht wird.

In eine ähnliche Richtung geht der Konzern Microsoft, der letztes Jahr mit der Polizei in New York ein Abkommen zur Entwicklung eines Analysewerkzeugs namens “Domain Awareness System” geschlossen hat. Eingebunden werden 3.000 Überwachungskameras, automatische Kennzeichenscanner und mehrere Datenbanken. Damit sollen Verdächtige aufgespürt werden, angeblich habe es dabei sogar Erfolge gegeben.

Am heutigen “Aktionstag” will PREDPOL erneut auf sich aufmerksam machen. Polizeien in jenen Städten, wo das System eingesetzt wird, sollen vermehrte Präsenz zeigen – vermutlich um Medien anlocken und das Produkt bewerben zu können. Unter dem Motto “All Out PredPol” heißt es:

The plan is to get as much positive and healthy activity and presence in each of the PredPol zones. To accomplish this, we are teaming with our public safety partners and community groups to activate these areas.

Richtig gelesen: Auch “community groups”, also Nachbarschaftsinitiativen sollen mit Karten aus dem Internet versorgt werden, um heute gemeinsam auf die Jagd nach verdächtig aussehenden Personen zu gehen.

Kürzlich hatte die ARD einen Beitrag zu einer derartigen Schnitzeljagd mit PREDPOL-Software in Santa Cruz gesendet, der natürlich “Minority Report” wird Wirklichkeit” heißen musste. Deutlich wurde vor allem der vorurteilsbeladene Charakter und der Alltagsrassismus von Fernsehteam und Polizei. Denn das computergestützte Vorhersagesystem liefert keine Anhaltspunkte, wie denn die erwarteten “Verbrecher” auzusehen haben oder zu erkennen wären.

Demenstprechend liefen der Moderatorin Karin Dohr die üblichen Verdächtigen vor die Kamera, darunter Menschen mit dunkler Hautfarbe, Kapuzenpullis und andere, offensichtlich unterprivilegierte Personen in einem heruntergekommenen Stadtteil.

Das aufgespürte “Verbrechen” (O-Ton Moderatorin), für das am Ende sogar Handschellen klickten: Der Besitz eines angeblich gestohlenen Fahrrads.

Wir wollen netzpolitik.org weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

March 26 2013

Hamburger Polizei und Geheimdienst nutzen bei Ermittlungen immer öfter Soziale Netzwerke – vielleicht bald mit spezieller Software

Die Hamburger Polizei und der Verfassungschutz nutzen für ihre Ermittlungen zunehmend Soziale Netzwerke. Dies teilte der Senat jetzt auf eine Anfrage der Linksfraktion mit. Die Fragestellerin hatte sich nach behördlichen Streifengängen bei Facebook, LinkedIn, MySpace, Twitter oder StudiVZ erkundigt.

Die Initiative ist der Versuch, eine ähnliche Anfrage im Bundestag nun auch auf Landesebene nachvollziehbar zu machen. Ausgangspunkt war ein Aufsatz in der Zeitschrift “Kriminalistik” von 2010, nachgedruckt in der Zeitschrift der “Gewerkschaft” der Polizei (GdP). Zwei Polizeidozenten illustrieren dort, dass soziale Netzwerke “wahre Fundgruben” für Ermittlungs- und Fahndungszwecke sind. Die Autoren analysieren, dass eine ganze Reihe realer polizeilicher “Lagen” auch im Internet abgebildet werden bzw. dort recherchiert werden können. Nützlich seien sie überdies für “präventionspolizeiliche Maßnahmen”, also die vorausschauende “Gefahrenabwehr”.

Der Hamburger Senat bestätigt das. Adressiert wird demnach ein weites Feld von “extremistische[n] und terroristische[n] Gruppen im In- und Ausland”. Eine entsprechende Abfrage Sozialer Netzwerke scheint für den Verfassungsschutz mittlerweile die Regel zu sein. Der Geheimdienst wird offensichtlich nicht nur bei konkreten Ermittlungen aktiv:

Ganz allgemein [sic!] werden im Rahmen der Informationsgewinnung zu Ermittlungszwecken Recherchen im Internet zu Personen, Personengruppen oder Organisationen auch in sozialen Netzwerken durchgeführt. [...] Es handelt sich um offene und (auch technisch) verdeckte Informationserhebungen zum Zweck themenspezifischer Aufklärung von Bestrebungen im Sinne des § 4 HmbVerfSchG sowie anlässlich entsprechender Identitätsermittlungen.

Weitere Einzelheiten zu den digitalen Ermittlungen des Inlandsgeheimdienstes möchte der Senat aber nicht machen und verweist auf den für die parlamentarische Kontrolle des Verfassungsschutzes zuständigen Kontrollausschuss. Eine derartige Aufsicht ist tatsächlich vonnöten, denn die Schnüffler geben “zum Zweck der Strafverfolgung oder der Gefahrenabwehr” Daten auch an polizeiliche Dienststellen weiter.

Auf die Frage nach der Rechtsgrundlage für “virtuelle ErmittlerInnen”, die sich mit falscher Identität in Sozialen Netzwerken anmelden, beruft sich Hamburg auf das Urteil des Bundesverfassungsgerichts vom 27. Februar 2008, das damals ein “Grundrecht auf Gewährleistung der Vertraulichkeit und Integrität informationstechnischer Systeme” betonte. Nach Hamburger Auslegung darf die Polizei

  • sich zur Aufgabenerfüllung der allgemein zugänglichen Quellen im Netz bedienen
  • sich unter Angabe eines Pseudonyms anmelden, ohne dafür die wahre Identität preisgeben zu müssen
  • sich der von Kommunikationsbeteiligten (z.B. Hinweisgebern, Geschädigten) überlassenen Zugangsdaten bedienen, um damit beispielsweise an geschlossenen Benutzergruppen teilnehmen zu können
  • auch über einen längeren Zeitraum an Kommunikationsbeziehungen (z.B. in Foren) teilnehmen

Zahlen zu den Internetermittlungen nennt der Senat nicht, da keine Statistiken geführt würden. Mitgeteilt wird aber, dass “virtuelle ErmittlerInnen” nicht zu Straftaten aufrufen dürfen. Auch das Verfassen von Texten bzw. das Weitergeben von Dateien mit strafbarem Inhalt ist verboten. Das Gleiche gilt für sogenannte “Honeypots”, mit denen das Bundeskriminalamt InternetnutzerInnen ausforschte, die sich für Ermittlungen gegen die „militante gruppe” interessierten. Auch seien “keine Fälle bekannt”, in denen Hamburger Sicherheitsbehörden im Zuge von Ermittlungen selbst Webseiten oder Blogs angelegt hätten. Die Ermittlungsarbeit beim Verfassungsschutz würden aber “besonders geschulte Mitarbeiterinnen und Mitarbeiter” übernehmen. Das mag übertrieben sein: Als der Verfassungsschutz Stuttgart 2008 anlässlich der Beobachtung der Anti-NATO-Proteste sein neues “Internetkompetenzzentrum” (IKZ) in Betrieb nahm, waren auf einem Foto der Lokalzeitung nicht nur Nacktfotos im Büro zu erkennen, sondern auch ein Leitz-Ordner mit der Aufschrift “IKZ Bedienungsanleitung”.

Bislang kommt in Hamburg noch keine Software zu Onlineermittlungen oder zur präventiven “Aufhellung” zur Anwendung. Die zuständige Behörde kündigt aber “zur Aufklärung von verfassungsrelevanten Bestrebungen oder schweren Straftaten” eine eventuelle Beschaffung vorsorglich an.

Bislang nutzt die Hamburger Polizei Soziale Netzwerke auch zur “Gefahrenabwehr bei Vermisstenvorgängen”. Ob sich Polizei und Verfassungsschutz von Anbietern sozialer Netzwerke Zugang zu nichtöffentlichen Profilen bzw. Nachrichten geben lassen, wird lediglich für die Polizei bejaht. Weitere Auskunft wird nicht gegeben, da die Frage “kriminaltaktische Belange” berühren würde, “zu denen der Senat grundsätzlich keine Auskunft erteilt”.

Geprüft wird nun, ob Hamburg wie die Polizeidirektion Hannover (Facebook!) in Sozialen Netzwerken “mit eigenen Auftritten präsent sein sollte”. Die Behörden wollen hierfür aber zunächst “Chancen und Risiken” analysieren und eine “Aufwandsberechnung” abwarten.

Um die polizeiliche Präsenz im Internet auszubauen, lädt die Microsoft Niederlassung Köln für den 11. April zum “Microsoft Polizeisymposium 2013″. Die Veranstaltung richtet sich an “Entscheidungsträger der Polizei und Sicherheitsbehörden”, die sich “über neueste Technologien aus den Bereichen Cyber-Crime, Security und Social-Media” informieren sollen. Themen sind neben Cloud Computing im allgemeinen auch die Einrichtung einer “Polizei-Cloud”.

Weil die behördliche Butterfahrt nach Köln nicht ohne Werbung auskommt, wird die Firma StarLIMS als Höhepunkt ihre “Forensik & Crime Scene Windows 8 App” vorstellen. Danach folgen drei Microsoft-Präsentationen über “Fusion-Center”, “Big Data bei der Polizei” und “Kinect im Polizeieinsatz”.

flattr this!

August 30 2012

Big Data vs. Privacy: Großbritannien zentralisiert 52 Millionen Krankenakten für Forschung, Anonymisierung fraglich

In Großbritannien sollen die Krankenakten aller Einwohner zentral gesammelt und mit anderen Datenbanken verknüpft werden. Wissenschaftler sollen damit neue Erkenntnisse finden können. Die Regierung verspricht eine Anonymisierung der Daten – die immer schwieriger zu leisten ist.

Der Nationale Gesundheitsdienst und die medizinische Zulassungs- und Aufsichtsbehörde für Arzneimittel in Großbritannien haben das Projekt Clinical Practice Research Datalink (CPRD) gestartet. Der große Datenpool wird als “Revolution der medizinischen Forschung” gefeiert. Ian Sample berichtet im Guardian:

Das CPRD wird Patientenakten in nie zuvor gesehenem Ausmaß verknüpfen und Patienteninformationen von Ärzten und Krankenhäusern mit anderen Datensätzen kombinieren, darunter Register über Krankheiten und psychische Gesundheit oder Gen-Datenbanken. Die kombinierten Datensätze können durchsucht werden, um Fragen der medizinischen Forschung zu beantworten. Die Ergebnisse werden mit Wissenschaftlern geteilt, sobald sie anonymisiert sind, um die Privatsphäre der Patienten zu schützen. Im Laufe der Zeit wird CPRD weitere Aufzeichnungen einbeziehen, darunter Daten über Umweltverschmutzung, Sozialfürsorge und Daten der UK Biobank, die DNA-, Blut- oder Gewebeproben von 500.000 Menschen besitzt. Schließlich werden ähnliche Systeme von kleineren Bevölkerungen wie Schottland und Wales angebunden.


Premierminister David Cameron verspricht: “Lassen Sie es mich deutlich sagen: Dies ist keine Gefährdung der Privatsphäre.” Die Daten werden nämlich anonymisiert.

Eine nicht umkehrbare Anonymisierung wird im Zeitalter von “Big Data” immer schwieriger. Bereits in den Neunziger Jahren gelang es Forschern, aus einem “anonymisierten” Datensatz mit Krankendaten die Krankenakte des Gouverneurs von Massachusetts herauszufinden, der vorher Anonymität versicherte. Vor fünf Jahren haben Forscher der Universität Texas die Anonymisierung eines ganzen Datensatzes von Netflix gebrochen und rückgängig gemacht. Die Studien zum Thema De-Anomisierung häufen sich:

Informatiker haben unseren Glauben in den Schutz des Datenschutzes durch Anonymisierung, also den Schutz der Privatsphäre durch das Entfernen von persönlichen Informationen wie Namen oder Sozialversicherungsnummer in großen Datensätzen, zerstört. Diese Wissenschaftler haben gezeigt, dass sie Einzelpersonen oft mit erstaunlicher Leichtigkeit aus anonymen Datensätzen “re-identifizieren” oder “de-anonymisieren” können.

Auch die Königliche Gesellschaft Großbritanniens kam kürzlich in einem Bericht Science as an open enterprise zum Schluss:

In der Vergangenheit wurde davon ausgegangen, dass die Privatsphäre von Menschen in Datensätzen durch Prozesse der Anonymisierung, wie der Entfernung von Namen oder Anschrift, geschützt werden könnte. Allerdings haben eine beträchtliche Menge an Studien in der Informatik nun gezeigt, dass die Sicherheit von persönlichen Daten in Datenbanken durch Anonymisierung nicht garantiert werden kann, wenn aktiv nach Identitäten gesucht wird.

Die Auseinandersetzung von Big Data und Privacy hat gerade erst begonnen. Mal sehen, wie lange die britischen Krankenakten anonym bleiben.

flattr this!

July 24 2012

Afghanistan-Kriegstagebuch: Wie aus großen Datensätzen die Zukunft vorhergesagt werden soll

Afghan map at different times with intensity colorsAus großen Datensätzen lassen sich mitunter Prognosen für die Zukunft ableiten. Ein Forscherteam hat jetzt aus den von WikiLeaks veröffentlichten Afghanistan-Kriegstagebüchern berechnet, wo und wie stark kriegerische Auseinandersetzungen in den Jahren nach den Daten auftreten würden. Im Vergleich mit den tatsächlichen Entwicklungen waren die Vorhersagen erstaunlich korrekt.

Während WikiLeaks derzeit eher mit boulevardesken Meldungen Schlagzeilen macht, werden erste wissenschaftliche Untersuchungen aus den veröffentlichten Datensätzen bekannt. Jetzt wurde die Dissertation Point process modelling of the Afghan War Diary veröffentlicht, in der Andrew Zammit-Mangion zusammen mit einem kleinen Team die Afghan War Diary analysiert hat. Aus dem Abstract:

Unsere Ergebnisse zeigen, dass unser Ansatz ermöglicht, tiefere Einsichten in die Dynamik von Konflikten zu erhalten und eine erstaunlich genaue Vorhersage von bewaffneten Kämpfen im Jahr 2010 zu treffen, ausschließlich auf der Basis von Daten aus früheren Jahren.


Das Paper besteht zu einem Großteil aus statistischen Konzepten und Formeln. Erst im letzten Kapitel wenden sie ihre statistischen Herleitungen auf die 77.000 veröffentlichten Berichte an. Dazu nahmen sie vor allem die präzisen Zeit- und Ortsangaben jedes Berichts. Aus diesem Datensatz prognostizierten sie, wie stark die Kämpfe in den einzelnen Regionen Afghanistans in 2010 sein würden. Auf GitHub gibt’s den verwendeten Code.

Die Ergebnisse der Forscher kamen der Wirklichkeit erstaunlich nahe, wie Jon Bardin in der Los Angeles Times zusammenfasst. Das Modell wurde nicht einmal durch die Entsendung von weiteren 30.000 amerikanischen Soldaten durch Obama beeinflusst. Und es war auch in relativ ruhigen Regionen wie dem Norden erstaunlich genau.

Das ist nicht die erste Prognose der Zukunft aus großen Datensätzen der Vergangenheit oder Gegenwart. Bereits vor zwei Jahren haben Forscher von HP Labs aus öffentlichen Tweets den Umsatz von Filmen an der Kinokasse berechnet. Ebenfalls 2010 investierten Google und die CIA in das Startup Recorded Future, dass aus Webseiten, Blogs und Tweets Prognosen abgeben will. Und gleich mehrere Forschungsteams wollen aus Twitter Prognosen für Börsenkurse errechnen.

Noch immer nicht alle Dokumente veröffentlicht

Neben Twitter bieten auch die von WikiLeaks veröffentlichten Daten noch viel Raum für spannende Forschung. Leider sind noch immer 15.000 Berichte der Afghan War Diaries nicht veröffentlicht. Damals hieß es, diese werden auch öffentlich, wenn man Hinweise auf Quellen entfernt hätte. Das ist bis heute nicht geschehen. Die Domain wardiary.wikileaks.org geht gar nicht mehr.

In einem Feature von WDR und DLF geht Marc Thörner diesen Berichten nach. Auch er bekam damals den vollständigen Datensatz von WikiLeaks, um sie für Tagesspiegel und WDR aufzuarbeiten. Durch seine Erfahrungen vor Ort in Afghanistan verfasste er eine Analyse mit tiefgehender politischer Einordnung des Konflikts. Doch kurz vor der koordinierten Veröffentlichung flog der Tagesspiegel aus dem Team der veröffentlichenden Medien heraus. Seine einen Tag später veröffentlichte Analyse fand kaum Beachtung.

Ein Uni-Forschungsseminar in Frankfurt bestätigt seinen Unmut:

Die Studentinnen Franziska Kreische und Katharina Ochsendorf werten zunächst die Medienberichte vom 26. und 27. Juli 2010 aus. Dabei stellen sie fest: Eine politisch gewichtete Analyse findet sich allein im Tagesspiegel vom 27.7.2010. Nur hier hätten sie Informationen über die Doppelspiele afghanischer Politiker und Parteien gefunden, Hintergründe über den Putschversuch gegen Karzai und die ethnisch motivierten Auseinandersetzungen.

Doch als sie die entsprechenden Passagen bei WikiLeaks in der Online-Veröffentlichung suchen, stellen sie fest: Gerade dieser politisch brisante Teil der Afghan Warlogs ist im Netz nicht zu finden.

Daniel Domscheit-Berg sagte Marc Thörner, dass die angekündigte Aufarbeitung und Veröffentlichung der Threat Reports wichtig gewesen wäre. Aber statt dessen hat sich WikiLeaks gleich dem “Hype um die nächste Publikation, den Irak-Dokumenten” zugewendet.

Hier gibt’s die MP3.

flattr this!

Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl