Roboterjournalismus,Presse,News,Medien

Roboterjournalismus – Wann schreiben KIs Nachrichten?

Veröffentlicht von PSM.Media

Künstlicher Intelligenz: Roboter­journalismus – Nutzen oder Gefahr?

Der Begriff Roboterjournalismus beschreibt die Erstellung von automatisch generierten Texten auf der Basis von strukturierten Daten.

Seit einigen Jahren geistert der Begriff “Roboterjournalismus” durch die Zeitungsverlage weltweit. Nachrichten-Texte werden in Zukunft von intelligenten Programmen und nicht mehr von Menschen geschrieben, so denkt man bei diesem Begriff. Aber wird eine KI in Zukunft Journalisten ersetzen? Tatsächlich kann die Frage derzeit mit einem Nein beantwortet werden. Denn noch ist die Art und Weise, wie Roboterjournalismus funktioniert, simpel.

Roboterjournalismus beschreibt zunächst den Vorgang, wenn Nachrichteninhalte (zum Beispiel ein Artikel) von einem Programm automatisch generiert werden. In seiner einfachsten Form funktioniert Roboterjournalismus so, dass Daten, die einer strukturierten Form wie in einer EXCEL-Tabelle vorliegen, in eine Text-Vorlage geschrieben werden. Wie einen Lückentext muss man sich das vorstellen:

“Die Temperatur heute in ___ beträgt ___ Grad Celsius. Die Sonne wird ___ Stunden scheinen.”

In diese leeren Felder werden nun Daten aus der strukturierten Datenquelle eingetragen. Und zwar nicht einmal, sondern in diesem Beispiel für alle Städte in Deutschland. Denn für einen Artikel macht dieses Verfahren nicht viel Sinn, ein Mensch wäre genauso schnell. Nur wenn als Ergebnis eine große Anzahl von Inhalten stehen soll, lohnt es sich.

Einfache Anwendungsgebiete von Roboter-Journalismus sind heute:

  • Artikel zu Wetter in Städten
  • Artikel zu Aktienkursen von Firmen
  • Artikel zu Sportergebnissen von z.B. Fussballspielen

Auf diesem Wege können natürlich auch Podcasts und Videos in Masse erstellt werden.

Doch selbst in der leicht verbesserten Version von Roboterjournalismus mit WENN/DANN – Bedingungen (WENN Grad > 30, DANN AUSGABE “Es wird sehr heiß.” oder WENN TORE_GEGNER > 10, DANN AUSGABE “Es war eine blamable Vorstellung des Gastgebers.”), hat diese Art von Roboterjournalismus mit künstlicher Intelligenz vorerst weniger zu tun, der generierte Text wirkt irgendwie unecht und bis auf die wenigen Einsatzzwecke, für die strukturierte Daten vorliegen, gibt es sonst nicht viel mehr. Was also tun, um den Prozess natürlicher zu gestalten?

Mit “Natural Language Processing” die Ein- und Ausgabe verbessern

Natural Language Processing (kurz: NLP) versucht, natürliche Sprache zu erfassen und zu verarbeiten. Dazu werden Erkenntnisse aus der Sprachwissenschaft mit künstlicher Intelligenz kombiniert. Zu NLP gehören auch Natural Language Understanding (kurz: NLU) und Natural Language Generation (kurz: NLG). NLU bezeichnet die Fähigkeit, einen Inhalt zu verstehen, zum Beispiel welche Anweisung gegeben wird oder welche Frage gestellt wird. NLG ist die Erstellung des Inhalts aus Daten, die durch NLP und NLU erzeugt wurden. Anders gesagt: NLG ist der Übersetzer, der Daten in eine sehr natürliche Sprache umwandelt.

Mit NLP, NLU und NLG wären zwei Dinge möglich:

  • für die Eingabe: Wichtige Daten in natürlich geschriebenen oder gesprochenen Texten werden erkannt, so dass die Datenquelle nicht unbedingt strukturiert sein muss. Aus einer Pressemitteilung könnten somit zum Beispiel alle Nachnamen von erwähnten Personen extrahiert werden.
  • für die Ausgabe: Der erstellte Inhalte, also zum Beispiel ein Nachrichten-Text, wird nicht mit einem Lückentext zusammengestellt, sondern einzigartig wie von einem Menschen generiert. Aber das in Sekundenbruchteilen.

Dies wäre somit ein deutlicher Schritt in Richtung “Roboter ersetzt Journalist”.

Wie funktioniert automatische Content-Produktion?

Voraussetzung für lesbare digitale Inhalte sind Daten. Je mehr Daten vorliegen, desto besser sind die Programme mit Künstlicher Intelligenz beim Schreiben von Texten. Über den zentralen Algorithmus werden diese Daten mit definierten Phrasen kombiniert. Die Bausteine für den späteren Text bestimmt der Mensch vor dem Computer, indem er die gewohnten Sprachbilder vorab definiert. Neben der nötigen linguistischen Formulierung ist auch der korrekte Umgang mit statistischen Regeln zu definieren.

Als Quelle für die Vielzahl von statistischen Daten kommen neben Instituten der Wissenschaft auch andere Tools oder soziale Netzwerke in Frage. Eine große Menge von Daten hilft dabei, dass automatisierte Inhalte abwechslungsreich sind. Hier besteht auch eine enge Verbindung zum normalen Journalismus, da ein Redakteur bei seiner Berichterstattung ebenfalls auf Daten zurückgreift. Allerdings können Maschinen die Daten noch nicht einordnen oder gar kommentieren.

Natural Language Processing als Grundlage

Jeder Algorithmus ist nur so gut, wie das Verständnis für Sprache durch eine dahinter liegende Software. Grundlage für automatisch generierten Content ist deshalb immer Künstliche Intelligenz. (KI). Ein Teilbereich von KI ist Natural Language Processing (NLP). Hier sind alle digitalen Technologien vereint, die sich mit der Verarbeitung von natürlicher Sprache beschäftigen. Zwei weitere Fachgebiete lassen sich daraus ableiten: Natural Language Understanding (NLU) und Natural Language Generation (NLG).

Natural Language Understanding ist die Basis, um Maschinen oder einer Software das Verständnis von natürlicher Sprache beizubringen. Beispiele für die Anwendung solcher Verfahren sind Chatbots und virtuelle Sprachassistenten.

Die nächste Stufe ist die automatische und korrekte Textgenerierung durch das Prinzip der Natural Language Generation. NLG ist die Voraussetzung, dass Systeme mit einem mathematischen Algorithmus natürliche Sprache automatisiert erstellen. Dabei werden aus Daten journalistische Inhalte. Sie sind inzwischen so gut, dass sie von Lesern nicht mehr von Beiträgen eines Redakteurs zu unterscheiden sind. Beispiele für diese Form der Textgenerierung sind Produktbeschreibungen im E-Commerce und Chatbots.

Beispiele für maschinellen Content

In verschiedenen Themenbereichen werden Leser inzwischen mit Nachrichten versorgt, die nicht menschlich geschrieben wurden. Anders als gedacht nehmen jedoch journalistische Medien keine Vorreiterrolle für Roboterjournalismus ein, sondern vielmehr Unternehmen aus unterschiedlichen Branchen. Es handelt sich zum Beispiel um Wirtschaftsbetriebe, die automatisierte Geschäftsberichte erstellen oder Firmen aus dem Gesundheitssektor. Krankenakten von Patienten werden häufig ebenfalls schon maschinell erstellt.

Im E-Commerce sind Produktbeschreibungen in Online-Shops teilweise automatisiert erstellt worden. In diesem Fall spielt Roboterjournalismus seine ganze Stärke aus. Shop-Betreiber können im System auf eine umfangreiche Datenbasis (Preise, Farben, Maße, Varianten) zurückgreifen. Auf diese Art können innerhalb kurzer Zeit zehntausende Produktbeschreibungen maschinell geschrieben werden.

Daten in Worte zu fassen klappt am besten auch dort, wo eine entsprechende Datenlage gegeben ist. Das ist der Fall im Sport, Finanzwesen, Wetter oder Verkehr.

Software-Anbieter für automatisierte Inhalte

Ein wichtiges Thema für Roboterjournalismus sind intelligente Programme, die aus Informationen auf Datenbasis per Algorithmus eine journalistische Meldung schreiben. In den vergangenen Jahren haben verschiedene Anbieter eine NLG-Software entwickelt.

Automated Insights wurde bereits 2007 gegründet. Das Portal bot automatisch generierte Beiträge über Sport an. Das Unternehmen hat mittlerweile eine große Bedeutung für die Entwicklung von NLG-Software. Insbesondere auf dem amerikanischen Markt ist Roboterjournalismus ein Thema. Hier nutzten Medien bereits frühzeitig eine Technologie auf Datenbasis, um Meldungen zu generieren.

Seit 2010 ist Narrative Science ein weiterer Anbieter im Segment der Software-Entwicklung. Erste Versuche mit automatischen Inhalten fanden auch hier im Sportbereich statt.

Auch hierzulande entwickeln Unternehmen intelligente Software für Robotertexte. Kunden sind zum Beispiel journalistische Medien im Sport- und Finanzbereich, vor allem aber auch Firmen ohne journalistischen Hintergrund. Zu den bekanntesten Entwicklern gehören Retresco, AX Semantics und Textomatic.

Roboter­journalismus im Online-Journalismus

Erste Versuche, einfache Worte mit Programmiersprache zu Sätzen zu formulieren, gab es bereits in den 1960er-Jahren. Der kommerzielle Schritt erfolgte 1992 mit dem Forecast-Generator, der in zwei Sprachen längere Wettervorhersagen generieren konnte.

Mit dem „Quakebot“ der Los Angeles Times wurde 2011 der Roboterjournalismus in breiteren Fachkreisen bekannt. Das Projekt umfasste die Entwicklung eines Algorithmus, der Datenstrukturen geologischer Institute nutzte, um Informationen über ein Erdbeben zügig bereitzustellen. Der Text wurde durch Automatisierung innerhalb weniger Minuten erstellt und von Journalisten nur noch veröffentlicht.

2016 hat die Washington Post für die Olympischen Spiele eine Software verwendet, die sich Heliograf nannte. Hier kam ein Algorithmus auf der Grundlage von Natural Language Generation zur Anwendung, um Sportergebnisse zu tickern.

  1. Wie kann eine KI hier assistieren?

    • Zu 1: Das Erkennen von aktuellen Themen kann eine KI über das Beobachten von Social-Media – Trends wie Twitter realisieren. Worüber sprechen gerade Nutzer in den sozialen Netzwerken? Worüber berichten andere Zeitungen derzeit? Dies ist bereits heute kein Problem durch Dienste wie crowdtangle.
    • Zu 2: Durch intelligente Suchen, Zugriff auf Wikipedia, eigene Archive und Pressemitteilungen der Feuerwehr sowie mittels NLP kann die KI die meisten Recherche-Fragen, die der Journalist hat, ausführen und ihm in übersichtlicher Form liefern. Um den Konktakt zu Behörden und Anwohnern zu erleichtern, können automatisch Telefonnummern ermittelt und Termine automatisch vereinbart werden.
    • Zu 10: Schwierig für eine KI, in diesem Fall generelle Aufgaben zu übernehmen. Intuition des Journalisten und Aufbau von Vertrauensverhältnissen ist hier gefragt.
    • Zu 11: Eine KI kann überprüfen, ob der Artikel alle notwendigen Kriterien erfüllt. Dazu gehören Rechtschreibung, aber auch, dass der Artikel in unterschiedlichen Tonalitäten für verschiedene Zielgruppen generiert wird (Sie-Anrede, Du-Anrede, einfache Sprache, kurze Version für Pendler, …).
    • Zu 12: Das Beobachten von zugesendetem Feedback kann eine KI übernehmen und bereits nach Stichwörtern vorfiltern. Über NLP ist es auch möglich, den Unterton von Kommentaren zu erkennen. Ist der Kommentar negativ oder positiv? Die Sentimentanalysemacht es möglich.

    Zusammengefasst: Bis eine künstliche Intelligenz einen Journalisten komplett ersetzen wird, dauert es sich noch einige Zeit und ich glaube, dass es auch nie passieren wird (sofern der Journalist nicht nur Wetterberichte schreibt). Die KI kann aber bereits heute bei vielen unkritischen Prozessen unterstützen. Geht es jedoch um das Aufdecken und das Erzählen von Geschichten, dann wird dies der Mensch weiterhin übernehmen.

 

Jan Uhlenbrok/PSM, Foto: Roboterjournalismus KI © IStock