Tumblelog by Soup.io
Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

February 24 2014

February 18 2014

January 16 2014

How-To Analyze Everyone – Teil II: Wie findest du eigentlich Zombiefilme?

Lange hat es gedauert, endlich bin ich zum zweiten Teil gekommen. Aber ich gelobe Besserung und nächste Woche einen Ausflug in die Welt der Zukunftsvoraussagen.

Wie schaffen es Firmen und Werbeunternehmen eigentlich, einen Überblick darüber zu haben, wie ihr Produkt oder ihre Werbekampagne in der Welt ankommt? Klassischerweise indem Menschen damit beschäftigt sind, vor den Bildschirmen zu sitzen und Kommentare und Reviews zu lesen. Diese Daten werden dann dazu genutzt, Produkte anzupassen und besser zu bewerben. Klingt nach viel Arbeit – ist es auch. Und in der heutigen Zeit, in der man von Informationen, Reviews, Tweets, Kommentaren, Blogs und Facebook-Posts zu allen möglichen Produkten erschlagen wird, gelangt man an die Grenzen personeller (und damit finanzieller) Effizienz.

Da kann man doch was automatisch machen? Klar. Aber einfach ist das nicht, denn eines hat der Mensch dem Computer voraus: Es fällt ihm meistens leicht, Äußerungen eines anderen Menschen einzuordnen. Wenden wir uns dem Filmgenre zu und betrachten die folgende Epinions-Bewertung zu einem (im Original) von mir sehr geschätzten Zombiefilm:

Day of the Dead has the reputation of being the weakest entry of Romero’s original trilogy and while I’d argue it’s still a good movie it definitely hasn’t stood the test of time. The cheesy soundtrack and acting aids in the mediocrity of the script. Though it’s a lot of fun, don’t expect a ton–especially if you’re hoping for a Dawn of the Dead caliber movie. This pales in comparison, but yet it’s still enjoyable.

Klare Sache, es handelt sich um einen Zombiefilm und der Autor der Rezension scheint positiv-neutral eingestellt. Aber wie bringen wir das dem Computer bei? Wir gehen hier mal davon aus, dass wir nur eine Sache herausfinden wollen: Ist die Bewertung eher gut oder schlecht?

Nach Bing Liu müssen wir fünf Werte ermitteln, um eine Meinung zu analysieren:

  • Thema – worum geht es eigentlich?
  • Teilaspekte – z.B. im Film: Musik, Schauspieler, Regie
  • Meinungsindikatoren wie ‘gut’, ‘toll’ oder ‘mies’
  • Inhaber der Meinung
  • Zeitpunkt der Meinungsäußerung

Schauen wir uns eine annotierte Fassung des obigen Ausschnitts an:

review1

Wie macht man das jetzt automatisch? Dafür gibt es unzählige Ansätze, deshalb wird hier nur eine Grundstruktur beschrieben werden. Wer mehr wissen will, findet im oben verlinkten Kapitel von Bing Liu viele Literaturverweise.

Erstmal: Wörter raussuchen

Stimmungen werden auf verschiedenen Ebenen ausgedrückt. Die kleinste davon ist das einzelne Wort. Manche Wortarten haben dabei mehr Aussagekraft bei der Bestimmung von Stimmungen und Meinungen als andere, das ist einleuchtend. “Der”, “wenn” oder “mein” verraten uns zunächst einmal nichts, können also (erstmal) außen vor gelassen werden. Am aussagekräftigsten sind intuitiverweise Adjektive und Adverben. Um die Satzbestandteile zu klassifizieren braucht man einen Mechanismus, der Wortarten erkennt, einen Part-of-Speech Tagger.

review2

Grundstimmung ermitteln

Weiß man, welche Wörter und Wortarten man vor sich hat, geht es darum herauszufinden, was die einzelnen Wörter ausdrücken, das heißt: Ob “terrible” eine positive oder negative Einstellung ausdrückt. Die Holzhammermethode ist es, Personen mit der Klassifizierung zu betrauen und die Ergebnisse in einer Datenbank zu sammeln. (Nicht nur) so generierte Datenbanken können dann gesammelt und weiterbenutzt werden. Es gibt aber auch andere Ansätze. Einer davon zum Beispiel ist der Pointwise Mutual Information and Information Retrieval-Algorithmus (PMI-IR), der die Ähnlichkeit zweier Wörter ermittelt. In diesem Fall heißt das: Man hat ein Wort, dessen Stimmung man noch nicht kennt und startet eine Suchanfrage, wie oft es in der Nähe eines bekannten Worts, wie ‘excellent’ oder ‘poor’ auftaucht.

Nimmt man als Beispiel ‘terrible’, bekommt man Folgendes:

  • terrible AROUND(excellent): 91.800.000 Treffer
  • terrible AROUND (poor): 137.000.000 Treffer

Zieht man dann nicht nur ein Referenzwort heran sondern mehrere, bekommt man in vielen Fällen eine brauchbare Einschätzung der Wortpolarität. Ein weiterer Ansatz ist der von SentiWordNet; hier wird – extrem grob zusammengefasst – eine kleine Ausgangsmenge eindeutig positiver und negativer Wörter genommen und mittels der lexikalischen Datenbank WordNet werden verwandte Wörter ermittelt. Je nach deren semantischem Abstand zueinander wird ihre Bedeutung geschätzt, wie bei ‘poor‘, für das man spontan 11 sinnverwandte Adjektive geliefert bekommt. Das ganze lässt sich im Browser ausprobieren und liefert eine graphische Darstellung in einem Dreieck mit den Spitzen ‘positiv’, ‘negativ’ und ‘neutral’.

sentiwordnet

Dann müsste man ja eigentlich nur noch positive und negative Wörter zählen, oder?

‘terribly good’, ‘not poor at all’ oder: das Problem der Zusammensetzung

Hat man die Bedeutung eines Wortes erfasst, steht man vor dem nächsten Problem. Wörter stehen nicht allein, sondern in Kombination. Sie tauchen in Satzstrukturen auf und können je nach Konstruktion negiert oder verstärkt werden. Aber hier helfen uns mehrere Dinge weiter. Zum einen der oben bereits erwähnte Part-of-Speech Tagger. Mit dessen Hilfe lassen sich nämlich schonmal Regeln formulieren wie:

‘not’ + positives Wort = negative Bedeutung

Damit sind aber noch keine zusammengesetzten Begriffe abgedeckt, wie zum Beispiel die ‘lot of fun’ aus der Bewertung von oben. Für solche Vorkommnisse muss man dann, nicht wie oben, einzelne Worte nach ihrer Bedeutung untersuchen, sondern Zweier-, Dreier-, …-Paare, sogenannte N-gramme.

Ein weiteres Problem sind für sich stehende Begriffe, die fälschlich als Meinung gedeutet werden können:

review3

“dead und “enjoyable” sind hier Meinungsträger, was aber eigentlich Quatsch ist, da der Filmtitel nicht die Meinung des Zuschauers enthält. Um Filmnamen, Regisseur, etc. herauszufiltern, kann man aber auf Datenbanken wie imdb.com zurückgreifen, die solche Informationen enthalten, und sie so aus der Analyse ausklammern:

review4Klassifikation des ganzen Texts

Eine Möglichkeit, die Meinung des ganzen Texts herauszufinden, ist folgende: Wenn wir Satzteile, Wortbedeutungen, Satzkonstruktionen, usw. kennen können wir daraus einen Vektor erstellen, in den wir die Eigenschaften als Werte notieren. Wir müssen dann dem Klassifikationssystem zunächst ein paar Beispiele beibringen, welche Eigenschaften die Vektoren positiver und negativer Bewertungen haben. Aber dafür ist das Internet eine dankbare Quelle, denn mit Sternchen/Punkten/Tomaten bewertete Filme oder Produkte findet man in Massen.

review6

Lernmethode gibt es viele, eine populäre sind “Support Vector Machines“, die versuchen durch die Vektoren beschriebene Punkte mit einer Trennlinie in zwei Klassen einzuteilen, sodass zwischen den Klassen ein möglichst breiter Trennstreifen liegt. In einem Beispiel mit Vektoren, die nur zwei Eigenschaften beinhalten – zum Beispiel: Anzahl der positiven (x1) und negativen (x2) Wörter-, könnte das so aussehen wie links. Liegt der neue Punkt auf der weißen Seite, wäre die zugehörige Bewertung positiv, liegt er auf der schwarzen, negativ.

Und was bedeutet das für mich?

Firmen haben großes Interesse daran, Stimmungsdaten aus sozialen Netzwerken, Foren und Bewertungsplattformen zu sammeln. Zum einen, um den Markt als Gesamtes im Auge zu haben, zum anderen, um die Vorlieben und Meinungen des Einzelnen einschätzen zu können. Das ist bei gezielter Werbung von Vorteil und zeichnet ein genaues Bild des Konsumverhaltens, wenn eine Person ihre Meinungen beispielsweise auf Facebook oder Twitter mit ihren Freunden teilt.

Aber Marketing ist nicht der einzige Anwendungsfall. Denn durch Meinungsäußerungen lässt sich auch die Radikalität von Personen schätzen, ihre politische und religiöse Einstellung, was für die Verteidiger von Staat und Gesetz von Relevanz ist. Dazu empfehlenswert ist auch der Vortrag “Überwachen und Sprache” vom 30C3.

Daher ist es nicht verwunderlich, dass sich ein reges Geschäft um Analysesoftware gebildet hat. Es gibt eine Menge Anbieter auf dem Markt. Und wer selbst ein bisschen spielen will, ohne gleich eine ganze Menge Geld auszugeben: Es gibt APIs für Twitter und von Google.

Wir wollen netzpolitik weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

December 05 2013

How-To Analyze Everyone – Teil Ia: Basics der Handyortung

Dieser Artikel soll der Start einer Reihe sein, die sich mit Methoden beschäftigt, die automatisiert Daten über uns auswerten und daraus Schlüsse ziehen. Wo halten wir uns gerade auf, mit wem sind wir unterwegs, was ist unsere Lieblingsfarbe und werden wir im nächsten Jahr in den Urlaub nach Spanien fahren? Google, NSA, Schufa und Co. versuchen, all das und noch viel mehr über uns zu erfahren. Damit wir ein bisschen mehr verstehen, wie das funktioniert, wird hier jede Woche ein anderer Aspekt aus Welt der automatischen Profilbildung beleuchtet. Mal aus Sicht der Wissenschaft, mal aus Sicht der Vermarktung, mal ganz allgemein, mal spezieller. Und wenn ihr wollt, könnt ihr mitbestimmen und mir Themen vorschlagen, die euch interessieren.

Heute beschäftigen wir uns mit den Grundlagen der Handyortung und -auswertung à la NSA. Erstmal recht grob, denn das Thema ist riesig. Ein technisch detaillierterer Teil wird aber (als Ausnahme schon sehr bald) folgen.

Funkzellenabfragen wie die zu den Autobränden in Friedrichshain, Handygate Dresden, Stille SMS und hochgeschätzte Zahlen dürften die NSA nur zum müden Lächeln bringen, wissen wir seit gestern. Egal wohin wir gehen – die NSA reist mit. Und sammelt rund 5 Milliarden Datensätze pro Tag.

Aber wie funktioniert das eigentlich alles?

Wo kommen die Daten her?

Berichten zu Folge direkt aus den Kabeln, die die Datencenter der Mobilfunk-Provider verbinden, zum Teil sicher in einhelliger Zusammenarbeit. Aber die eigentlichen Ortsdaten müssen vorher erst einmal ermittelt werden.

Wenn wir uns bewegen, sucht sich unser Handy immer den Funkmast, zu dem es den besten Empfang hat und wählt sich bei diesem ein. Die zugehörige Funkzelle mit ihrer spezifischen CellID ermöglicht dann eine grobe Schätzung, wo wir uns befinden. Das ist aber recht ungenau, vor allem in ländlichen Gegenden, wo man nur alle paar Kilometer eine Basisstation braucht, da die Handydichte geringer ist als beispielsweise in Berlin – dort trifft man schon in Abständen von wenigen 100 Metern auf neue Funkzellen.

Das ist noch sehr ungenau und lässt sich verfeinern. Beispielsweise dadurch, dass die Zeit bestimmt wird, die ein extra ausgesendetes Signal zu mehreren benachbarten Funkmasten (bzw. die Antwort zurück) benötigt. Dafür braucht man mindestens drei erreichbare Stationen, aber je mehr, desto besser. Hier ein kleines Beispielbild:

triangulation

Damit kann man bei ausreichender Funkzellendichte schon Genauigkeiten von ca. 30 Metern erreichen. Alle Verfahren, die nur mit dem Mobilfunknetz an sich arbeiten, nennt man GSM-Ortung. Noch genauer geht die Positionsbestimmung aber mit W-Lan-Zugangspunkten in Städten, denn davon gibt es erfahrungsgemäß mehrere und die Radien sind kleiner.

Ein weiterer Weg, den Aufenthaltsort eines Mobilgerätes zu ermitteln ist GPS. Das ist ziemlich genau – klar, kennen wir ja von Navigationsgeräten. Aber die Ortung muss immer vom Handy selbst initiiert werden, das analog zur Funkzellenortung seine Position mit Hilfe der Signallaufzeiten zu den GPS-Satelliten ermittelt. Hierzu braucht es jedoch eigens dafür installierte Software, da die GPS-Satelliten nicht wie die Funkmasten der Kontrolle des Netzbetreibers unterliegen.

Aber im Fall der NSA dürfte es vermutlich weder ein Problem sein, auf die GPS-Satelliten zuzugreifen noch sich die berechnete Position vom Endgerät ausgeben zu lassen. Mit einer Kombination aus GSM und GPS arbeitet übrigens auch der deutsche Zoll. Das Patras genannte System war bekannt geworden, als Hacker 2011 Daten aus einem Zollserver ausgelesen hatten.

Was sind das eigentlich für Daten?

Wie findet man eigentlich ein Handy unter vielen wieder? Lassen sich eigentlich auch Handys verfolgen, wenn man zwischendurch die SIM-Karte tauscht? Und was verrät eine Funkzellenabfrage noch so über mich?

Bei der Abfrage während der Anti-Nazi-Demo in Dresden 2011 wurden 896.072 Verkehrsdatensätze, 257.858 Rufnummern und 40.732 Bestandsdaten (Daten über den Anschlussinhaber und den Vertrag sowie IMEI) abgefragt.

Bei der IMEI, International Mobile Station Equipment Identity, liegt ein Teil des Hundes begraben. Diese Nummer ist nämlich eine (in der Theorie) für jedes Mobiltelefon eindeutige Nummer und ändert sich auch nicht beim Wechsel der SIM-Karte. Das ist einerseits praktisch, um gestohlene Handys für andere Karten sperren zu lassen, macht aber die Überwachung leichter. Manche Hersteller halten sich jedoch nicht an eine eindeutige Nummerierung und für manche Handys lassen sich IMEIs nachträglich ändern, sodass allein dadurch der Überwachungserfolg nicht garantiert ist.

IMSI, International Mobile Subscriber Identity, ist uns vom Namen der IMSI-Catcher bekannt und identifiziert nicht wie die IMEI das Gerät, sondern die SIM-Karte. Neben CellID, IMSI und IMEI benutzt die NSA übrigens laut der von der Washington Post veröffentlichten Präsentation weitere 37 Angaben zur Verfolgung eines Mobilgeräts – Details dazu gibt es in Teil Ib.

Wir merken also: Gerät tauschen – bringt nix. Karte tauschen – bringt auch nix. Und wer jetzt auf die Idee kommt, Einweghandys mit Wegwerf-SIMs zu benutzen und jeweils nur ein Telefongespräch damit zu machen: Zu kurze Anschaltzeiten und beinahe synchrones Aus- und Anschalten benachbarter Geräte sind auch verdächtig.

Wo gehen die Daten hin?

5 Milliarden Datensätze mit schätzungsweise ca. 27 Terrabyte Gesamtvolumen pro Tag – das ist selbst für die NSA ein ziemlicher Berg. Die Datenbank, die solche Mengen aufnehmen soll, heißt FASCIA. Zur Einordnung hilft die verlinkte Folie, denn dort ist auch die noch größere Datenbank für alle möglichen Arten von Metadaten aufgeführt – Marina. Die wurde schon im September bekannt, damals berichtete The Guardian:

Jegliche Computer-Metadaten, die von der NSA gesammelt wurden, werden zu der Marina-Datenbank geleitet. Telefondaten werden zu einem separaten System gesendet.

Seit gestern wissen wir ja, welches dieses “separate” System ist…

Was macht die NSA damit?

Nach eigenen Angaben versucht man, Begleiter von bekannten Zielpersonen zu finden – daher der Name CO-TRAVELLER. Dafür scannt man die Datenbank mit dem Suchtool CHALKFUN nach Korrelationen. Das heißt, wer war mit wem in welcher Funkzelle? Haben die beiden Ziele sich gemeinsam, etwa gleichzeitig in eine andere Zelle bewegt? Kombiniert man die 40 erhobenen Datenstückchen von jedem Gerät und ermittelt man über eine Stunde hinweg immer wieder Zusammenhänge, kann man danach davon ausgehen, ein Bild über tatsächliche Treffen oder Zufallswegüberschneidungen zu erhalten.

Und die amerikanischen Bürger?

Die will natürlich keiner abhören. Aber Kollateralschaden lässt sich nunmal nicht vermeiden. Dafür wissen wir dank eines ebenfalls gestern erschienenen Ausschnitts ein bisschen mehr, wie die USA Amerikaner und Nicht-Amerikaner auseinander halten. Ermittelt TAPERLAY, ein Tool das registriert, wo ein Mobilgerät sich eingewählt hat, dass derjenige seit 60 Tagen in keiner amerikanischen Funkzelle angemeldet war, ist er Nicht-Amerikaner im Sinne der Überwachungsanordnung.

Wir wollen netzpolitik.org weiter ausbauen. Dafür brauchen wir finanzielle Unterstützung. Investiere in digitale Bürgerrechte.

flattr this!

Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl