Tumblelog by Soup.io
Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

July 25 2013

Die 17. Legislaturperiode in Zahlen: Datenjournalismus vom Feinsten

Quelle: Data Blog Zeit Online

Quelle: Data Blog Zeit Online

Im Open Data Blog auf Zeit Online findet man seit heute die 17. Legislaturperiode (27. September 2009 und dem 28. Juni 2013) visuell aufbereitet. Alle parlamentarischen Aktivitäten der Abgeordneten von Regierung und Opposition wurden gesammelt und ausgewertet wodurch sich interessante “Bilanzen” für jeden einzelnen Abgeordneten ergeben. Insgesamt wurden 155.965 Datensätze ausgewertet und aufbereitet.

Zur besseren visuellen Übersicht haben die Schöpfer Sascha Venohr, Martina Schories, Paul Blickle und Lisa Caspari eine Kategorisierung vorgenommen. So wird zwischen Reden, Wortbeiträgen, Gruppeninitiativen, Fragen und Antworten unterschieden.

Hier ein paar der wichtigsten Erkenntnisse aus der Auswertung der Daten:

Besonders aktiv zeigen sich die Oppositionsfraktionen. Ganz vorn liegen die Grünen. Ihre Abgeordneten kommen im Schnitt auf 627 Einträge in der parlamentarischen Dokumentation. Gefolgt von der Linkspartei, hier sind es durchschnittlich 520 Einträge. Die SPD war mit durchschnittlich 228 verzeichneten Tätigkeiten pro Abgeordneten deutlich zurückhaltender. Abgeordnete von Union und FDP waren lediglich 101 bis 136 Mal aktiv.

Außerdem scheinen manche wissbegieriger zu sein, als andere, im Bundestag:

Über alle Parteien hinweg wurden 26.639 Fragen eingereicht – entweder als kleine oder große Anfrage zur schriftlichen Beantwortung oder als Frage für die mündliche Fragestunde im Bundestag. Die Wissbegierigste ist die Linken-Abgeordnete Ulla Jelpke. Sie stellte der Regierung allein 958 Fragen. Auf Platz 2 folgt – abgeschlagen – Bärbel Höhn von den Grünen mit 701 Fragen. Insgesamt formulierten die Grünen 9.199 Fragen, die Linke 8.535 Fragen und die SPD 7.601 Fragen.

Natürlich sollte man es tunlichst vermeiden anhand einer quantitativen Auswertung, qualitative Aussagen treffen zu wollen. So schreiben die verantwortlichen Daten-Journalisten auch:

Trotz all der schönen Spitzenwerte und Ranglisten – absolute Aussagen über das politische Engagement der Politiker kann unsere Aktivitätsbilanz nur bedingt treffen… Auch sagt eine hohe Anzahl von Zwischenfragen nicht unbedingt etwas über die inhaltliche Qualität der Arbeit aus.

Trotzdem ist es interessant zu sehen, dass Herr Pofalla nicht nur im Überwachungsskandal “ein Phantom” zu sein scheint, sondern auch im Bundestag eher ruhig auftritt. Wie Thomas Reichart vom ZDF so schön sagte:

Pofalla existiert also, wer hätte das gedacht.

Wir wollen netzpolitik.org weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

July 24 2012

Afghanistan-Kriegstagebuch: Wie aus großen Datensätzen die Zukunft vorhergesagt werden soll

Afghan map at different times with intensity colorsAus großen Datensätzen lassen sich mitunter Prognosen für die Zukunft ableiten. Ein Forscherteam hat jetzt aus den von WikiLeaks veröffentlichten Afghanistan-Kriegstagebüchern berechnet, wo und wie stark kriegerische Auseinandersetzungen in den Jahren nach den Daten auftreten würden. Im Vergleich mit den tatsächlichen Entwicklungen waren die Vorhersagen erstaunlich korrekt.

Während WikiLeaks derzeit eher mit boulevardesken Meldungen Schlagzeilen macht, werden erste wissenschaftliche Untersuchungen aus den veröffentlichten Datensätzen bekannt. Jetzt wurde die Dissertation Point process modelling of the Afghan War Diary veröffentlicht, in der Andrew Zammit-Mangion zusammen mit einem kleinen Team die Afghan War Diary analysiert hat. Aus dem Abstract:

Unsere Ergebnisse zeigen, dass unser Ansatz ermöglicht, tiefere Einsichten in die Dynamik von Konflikten zu erhalten und eine erstaunlich genaue Vorhersage von bewaffneten Kämpfen im Jahr 2010 zu treffen, ausschließlich auf der Basis von Daten aus früheren Jahren.


Das Paper besteht zu einem Großteil aus statistischen Konzepten und Formeln. Erst im letzten Kapitel wenden sie ihre statistischen Herleitungen auf die 77.000 veröffentlichten Berichte an. Dazu nahmen sie vor allem die präzisen Zeit- und Ortsangaben jedes Berichts. Aus diesem Datensatz prognostizierten sie, wie stark die Kämpfe in den einzelnen Regionen Afghanistans in 2010 sein würden. Auf GitHub gibt’s den verwendeten Code.

Die Ergebnisse der Forscher kamen der Wirklichkeit erstaunlich nahe, wie Jon Bardin in der Los Angeles Times zusammenfasst. Das Modell wurde nicht einmal durch die Entsendung von weiteren 30.000 amerikanischen Soldaten durch Obama beeinflusst. Und es war auch in relativ ruhigen Regionen wie dem Norden erstaunlich genau.

Das ist nicht die erste Prognose der Zukunft aus großen Datensätzen der Vergangenheit oder Gegenwart. Bereits vor zwei Jahren haben Forscher von HP Labs aus öffentlichen Tweets den Umsatz von Filmen an der Kinokasse berechnet. Ebenfalls 2010 investierten Google und die CIA in das Startup Recorded Future, dass aus Webseiten, Blogs und Tweets Prognosen abgeben will. Und gleich mehrere Forschungsteams wollen aus Twitter Prognosen für Börsenkurse errechnen.

Noch immer nicht alle Dokumente veröffentlicht

Neben Twitter bieten auch die von WikiLeaks veröffentlichten Daten noch viel Raum für spannende Forschung. Leider sind noch immer 15.000 Berichte der Afghan War Diaries nicht veröffentlicht. Damals hieß es, diese werden auch öffentlich, wenn man Hinweise auf Quellen entfernt hätte. Das ist bis heute nicht geschehen. Die Domain wardiary.wikileaks.org geht gar nicht mehr.

In einem Feature von WDR und DLF geht Marc Thörner diesen Berichten nach. Auch er bekam damals den vollständigen Datensatz von WikiLeaks, um sie für Tagesspiegel und WDR aufzuarbeiten. Durch seine Erfahrungen vor Ort in Afghanistan verfasste er eine Analyse mit tiefgehender politischer Einordnung des Konflikts. Doch kurz vor der koordinierten Veröffentlichung flog der Tagesspiegel aus dem Team der veröffentlichenden Medien heraus. Seine einen Tag später veröffentlichte Analyse fand kaum Beachtung.

Ein Uni-Forschungsseminar in Frankfurt bestätigt seinen Unmut:

Die Studentinnen Franziska Kreische und Katharina Ochsendorf werten zunächst die Medienberichte vom 26. und 27. Juli 2010 aus. Dabei stellen sie fest: Eine politisch gewichtete Analyse findet sich allein im Tagesspiegel vom 27.7.2010. Nur hier hätten sie Informationen über die Doppelspiele afghanischer Politiker und Parteien gefunden, Hintergründe über den Putschversuch gegen Karzai und die ethnisch motivierten Auseinandersetzungen.

Doch als sie die entsprechenden Passagen bei WikiLeaks in der Online-Veröffentlichung suchen, stellen sie fest: Gerade dieser politisch brisante Teil der Afghan Warlogs ist im Netz nicht zu finden.

Daniel Domscheit-Berg sagte Marc Thörner, dass die angekündigte Aufarbeitung und Veröffentlichung der Threat Reports wichtig gewesen wäre. Aber statt dessen hat sich WikiLeaks gleich dem “Hype um die nächste Publikation, den Irak-Dokumenten” zugewendet.

Hier gibt’s die MP3.

flattr this!

Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl