Ein Algorithmus, der Unhöflichkeit erkennt

Ein Algorithmus soll Schimpfwörter erkennen.
Ein Algorithmus soll Schimpfwörter erkennen.(c) Bilderbox
  • Drucken

Webbasierte Anwendungen, die große Datensätze analysieren können, sollen Journalisten künftig helfen, investigativ die Nadel im Heuhaufen zu entdecken – oder ungeahnte Zusammenhänge zu erkennen.

Manche Abgeordnete schimpfen im Parlament wie Rohrspatzen. Die Stenografen schreiben dennoch all das mit. Zur letzten Nationalratssitzung in der alten Legislaturperiode vom 12. Oktober etwa lassen sich auf der Parlamentswebsite 110 Dokumente abrufen – jedes umfasst die Wortmeldung eines Abgeordneten. Wollte man Schimpfwörter aus dem Gesprochenen aller Nationalratssitzungen der vergangenen zwanzig Jahre filtern, säße man vor einer riesigen zu analysierenden Datenmenge.

Das Team des Projekts Valid – die Abkürzung steht für „Visual Analytics im Datenjournalismus“ – hat sich diesem Konvolut dennoch ausgesetzt. Die Programmierer, Designer, Medien- und Sozialwissenschaftler gehören der FH St. Pölten (Institut für Creative Media Technologies), der FH Joanneum (Institut für Journalismus und Public Relations), der Universität Wien (Fakultät für Informatik) und der Produktionsfirma Drahtwarenhandlung an. Die Analyse der Parlamentsprotokolle ist dabei nur Teil eines übergreifenden Projekts.

Derzeit noch „Scheu“ vor Daten

Im Rahmen von Valid, das die österreichische Forschungsförderungsgesellschaft FFG unterstützt, arbeiten die Forscher nämlich an Größerem: daran, Instrumente oder Tools zu entwickeln, die helfen, unüberschaubare Datenmengen so darzustellen, dass man sie (besser) interpretieren kann. Diese Instrumente sollen dann kostenlos Journalisten zur Verfügung gestellt werden, die dadurch – so das Kalkül – auf den Geschmack kommen, verstärkt datenjournalistisch zu arbeiten.

Denn in den heimischen Redaktionen herrsche davor noch eine gewisse „Scheu“, sagt Robert Gutounig von der FH Joanneum in Graz, Bereichsleiter für den journalistischen Part von Valid. „Viele haben wohl schon von Datenjournalismus gehört, aber keine statistische oder technische Vorbildung“, so Gutounig. Deshalb werden schon jetzt Prototypen besonders auf ihre Nutzertauglichkeit hin getestet, etwa unter den Grazer FH-Studenten oder beim Journalistinnenkongress, der im November in Wien stattfand.

Die Anwendungen befassen sich derzeit vor allem mit der Visualisierung bereits bekannter Datensätze (in Tabellenform) – etwa kann dargestellt werden, an welche österreichischen Betriebe EU-Agrarförderungen fließen (die Daten werden von Agrarmarkt Austria veröffentlicht); Benutzer können dank der übersichtlichen Darstellung im Tool rasch erkennen, welcher Betrieb etwa besonders hohe EU-Förderungen erhält.

Opposition spricht unhöflicher

Das Projekt läuft noch bis Ende 2018, bis dahin wolle man sich auf die Analyse von Daten auf Textbasis – wie sie zuletzt auch Panama- und Paradise-Papers darstellten – konzentrieren, so Gutounig.

Heimisches Beispiel dafür ist die eingangs erwähnte Auswertung der Parlamentsprotokolle. Algorithmen identifizieren hier „unhöfliche“ Wendungen oder Sätze mittels Textanalysemethoden. Die Klassifizierung „unhöflich“ basierte auf Bewertungen, die Politikwissenschaftler gewissen Ausdrücken zuvor beispielhaft zugeordnet hatten, um die Algorithmen zu trainieren. Eines der Ergebnisse, vorerst wenig überraschend: Oppositionsparteien haben ein negativeres Sprechverhalten als die Regierung. Nun will man die verwendeten Algorithmen verfeinern. Denn: Ironie und Sarkasmus können sie – noch – unzureichend erkennen.

LEXIKON

Datenjournalismus betrifft heute häufig geleakte Dokumente – geheime oder firmeninterne Schriftstücke oder Datensätze, die unautorisiert an die Öffentlichkeit gelangen.

Algorithmen sind Handlungsanweisungen zur Lösung etwa statistischer oder mathematischer Probleme. Simples Beispiel ist das Vorgehen beim schriftlichen Dividieren.

("Die Presse", Print-Ausgabe, 09.12.2017)

Lesen Sie mehr zu diesen Themen:


Dieser Browser wird nicht mehr unterstützt
Bitte wechseln Sie zu einem unterstützten Browser wie Chrome, Firefox, Safari oder Edge.