»Allein 262 Merkmale betreffen die Syntax der Sätze. Eigenheiten bei der Zeichensetzung werden ebenso ermittelt wie Anzahl und Anordnung der sogenannten Funktionswörter – Pronomen, Präpositionen, Artikel und Hilfsverben erlauben Rückschlüsse auf die Denkweise des Verfassers. Zudem untersuchen die Programme den Reichtum des Wortschatzes, die Länge der Wörter und die Häufigkeit einzelner Buchstaben. Selbst die Farbe der Schrift bleibt nicht unberücksichtigt. Der eigentliche Inhalt des Textes wird dagegen nur auf 15 Merkmale hin abgeklopft. Dazu gehören Begriffe, die gewalttätige Aktionen erahnen lassen.
“Mit Hilfe dieser Informationen versuchen wir zu ergründen, welche Idee hinter einem Text steckt – also welche Emotionen, Meinungen, Themen”, sagt Chen [Direktor des Labors für künstliche Intelligenz an der Universität von Arizona]. Statistische Modelle, die die im Web ermittelten Merkmale mit den Eigenschaften bekannter Texte verglichen, berechnen dann die Gefahr, die von einem Autor ausgehen könnte.«
Auf ihrer Wissenschaftsseite vom Wochenende berichtet die Süddeutsche Zeitung über Ansätze der Computerlinguisten zur gezielten Informationsauswertung von Texten aus sozialen Netzwerken, News-Sites und Blogs.




