Was Sophie Passmann und der SWR über die Fehlwahrnehmung von Large Language Models verraten
Der SWR hat einen Podcast via Künstlicher Intelligenz produziert. Das Ergebnis zeigt die Fehlwahrnehmung von Large Language Models – und dass sie keineswegs immer effizienter sind. Der Beitrag Was Sophie Passmann und der SWR über die Fehlwahrnehmung von Large Language Models verraten erschien zuerst auf Indiskretion Ehrensache.

Seit drei Wochen sind Freitage in Sachen Podcast ein Fitzelchen bereichernder geworden. Denn an diesem Tag erscheint die jeweils neue Ausgabe von Sophie Passmanns neuem Podcast gestartet. Wollte man ihn verschubladen, fiele er unter Popukultur-Feuilleton, neben den üblichen Podcast-Feeds gibt es ihn auch auf Youtube.
Ich finde ihn bereichernd, weil Passmann ihn allein bestreitet. Ziemlich exakt 103,54% aller neuen Podcasts in Deutschland bestehen ja entweder daraus, dass zwei bis drei geschlechtsgleiche Menschen mit einem überschaubarem Investment an Vorbereitung über ihr Leben herummeinen oder aus kritikfreien Interviews mit halb- bis ganz prominenten Personen.
Passmann aber redet. 40 bis 60 Minuten. Ja, mit Notizen, aber eben nicht telepromptig abgelesen. So was muss man können, man kann es aber nur, wenn man im Thema, über das man redet drin ist. So drin, dass man freifliegend längere Gedankengänge formulieren kann.
Eigentlich müsste jede Journalistin und jeder Journalist dazu in der Lage sein. Nicht so unterhaltsam wie Passmann und nicht so flüssig, nicht jeder ist ein guter Redner. Doch grundsätzlich müsste jeder Mensch im Journalismus in der Lage sein, textlich oder wörtlich etwas zu veröffentlichen, was von seinem Fachgebiet handelt (natürlich ist ein Problem, dass viele Menschen in Redaktionen gar keine richtigen Fachgebiete mehr haben, aber das ist eine andere Debatte und es gibt natürlich noch immer Fachmenschen in Medienhäusern).
Gerade, als am Sonntag morgen die letzten Minuten der aktuellen Ausgabe von „Der Sophie Passmann Podcast“ (OK, der Name, da könnte man jetzt drüber reden) liefen, erreichte mich die Nachricht eines Menschen aus der Medienbranche: Ob ich schon den SWR-Podcast „Joystick & Journalismus“ gehört hätte und was ich davon hielte.
In diesem Moment lautete die Antwort auf jene Frage: Nein.
Nun lautet sie: Leider ja.
Denn dieses Projekt zeigt, was in Deutschland falsch läuft, ein wenig in Sachen Podcasts, noch viel mehr in Sachen Künstlicher Intelligenz.
Die nämlich hat diesen Podcast irgendwie produziert und eingesprochen. „Joystick & Journalismus“ basiert auf einem Whitepaper, das der SWR veröffentlicht hat. In dem geht es um Gaming und die Frage, was öffentlich-rechtliche Redaktionen mit Videospielen tun könnten. Solch ein Papier kann man zusammenstellen, es scheint mir ein guter Denkanstoß zu sein.
Dann aber wird es schwierig. Zitat:
„Der Inhalt dieses Podcasts basiert vollständig auf dem Whitepaper „Der Megatrend Gaming“ des SWR, das speziell für Medienschaffende aufbereitet wurde. Die KI hat die wesentlichen Punkte des Whitepapers zusammengefasst, um komplexe Themen verständlich und einfach zu vermitteln. Die Hosts des Podcasts sind KI-generierte Charaktere. Darüber hinaus ist dieser Podcast ein Experiment, um zu erproben, wie KI-generierte Texte und Stimmen effektiv zur Vermittlung von Inhalten eingesetzt werden können.“
Wieder einmal tut jemand in Deutschland so, als könne eine Generative KI Wissen erkennen. Kann sie nicht. Eine Generative KI hat keinerlei Wissen, sie kennt nicht mal das Konzept der Korrektheit. Und deshalb sollte man sich nie, nie, nie darauf verlassen, dass solch eine Zusammenfassung korrekt ist, erst recht nicht bei komplexen Zusammenhängen.
Wissenschaftliche Studien, die vor solch einer Verwendung warnen, gibt es reichlich. Ein Beispiel: Vergangenes Jahr untersuchte JP Morgan Chase, wie gut Large Language Models bei der Bearbeitung von Themen aus dem Finanzbereich sind. Fazit:
Nun rühmt sich „Joystick & Journalismus“ aber auch noch, das Thema „speziell für Medienschaffende“ aufbereitet zu haben. Was soll das heißen? Aus dem Kontext heraus scheint der SWR zu meinen, dass „komplexe Themen verständlich“ aufbereitet wurden.
Äh, bitte?
Medienschaffende sind nicht in der Lage, komplexe Themen zu erfassen? Und das im Bereich Gaming? Hätte ich das als Medienblogger geschrieben, man hätte mich öffentlich gevierteilt.
Es gibt noch etwas, was diesen Podcast absetzt von den allerallermeisten anderen: seine Länge. Fünf Folgen hat „Joystick & Journalismus“ mit einer Länge von insgesamt 38 Minuten. Insgesamt. Nicht pro Folge.
Kein Podcaster würde so ein Format anschieben, der Trend geht ja eher zu mehr Länge, „Alles gesagt“ aus dem Hause „Zeit“ bringt es ja regelmäßig auf sechs oder sieben Stunden. Der SWR auf sechs oder sieben Minuten.
Ist diese Kürze auch „speziell für Medienschaffende“? Traut ihnen der SWR nur noch die Aufmerksamkeitsspanne eines von bunten Bällen abgelenkten Bonobos zu?
Diese Kürze ist aus einem anderen Grund noch bemerkenswerter. Jenes Whitepaper umfasst rund 40 Textseiten (es sind noch ein paar Bilder, Überschriften und hinten Glossar und Quellen mit drin). Lese ich eine dieser Seiten, komme ich auf zwei Minuten pro Seite und somit auf 80 Minuten Gesamtlänge. Die KI hat also die Konsumzeit des Whitepapers auf die Hälfte gekürzt. Man kann das super finden, aber ist das wirklich ein derartiger Effizienzgewinn, dass er all den Aufwand rechtfertigt?
Denn ein Aufwand ist, macht man all dies seriös, in erheblichem Umfang vorhanden. Ich muss ein LLM auswählen. Dann muss ich ihm das Whitepaper zufüttern. Ich muss eine Tonalität und die Rahmenbedingungen (in dem Fall zwei Moderatoren, die sich die Bälle zuspielen) prompten – bis dahin ist das sogar noch überschaubar.
Dann aber muss ich hingehen und jedes einzelne Faktum der KI-Zusammenfassung nochmal kontrollieren. Man kann und darf nicht davon ausgehen, dass die KI bei Fakten richtig liegt. Schließlich müsste man noch hingehen und die einzelnen Passagen feinredigieren (es gibt Systeme, bei denen das so explizit gar nicht möglich ist).
Am Ende steht dann ein Produkt, dass Emotionen simuliert. Die KI-Moderatoren werfen sich ungelenk die Bälle zu wie zwei Darsteller der Laienspielschar „Dorfbrunnen“ bei der Vorpremiere des winterlichen Plattdeutsch-Lustspiel. Alles wirkt hölzern und nicht mitnehmend.
Vor allem werden hier keine komplexen Themen verständlich vermittelt. In etlichen Passagen kommt jemand, der sich mit Gaming noch nie beschäftigt hat, einfach nicht mit. Das liegt auch daran, dass ein Whitepaper eine Struktur hat, die beim Hören nicht mehr so gut aufgeht.
Und deshalb halte ich diesen Podcast für ein verfehltes Experiment. Ich bin nicht gegen Experimente, man muss aber nicht jedes Experiment auch veröffentlichen. Immerhin: Der Podcast ist anscheinend nur auf der Homepage des SWR versteckt, man muss sich also nicht Sorgen machen, dass er weiträumig Reichweite findet.
„Joystick & Journalismus“ zeigt anschaulich eine verschobene Wahrnehmung über GenAI in Deutschland: Nur, weil eine KI etwas auswirft, was logisch klingt, ist es noch lange nicht korrekt, noch lange nicht qualitativ gut und noch lange nicht effizient.
Was wäre die Alternative gewesen?
Es gibt Menschen, die haben dieses Whitepaper verfasst, sie sind Experten in diesem Feld. Und sie arbeiten beim SWR, machen also mit einer gewissen Wahrscheinlichkeit Hörfunk oder Fernsehen und haben schon mal ein Mikro gesehen. Man hätte also einfach einen Podcast produzieren können. Er wäre 45 Minuten lang gewesen und hätte sogar irgendwo ins Radioprogramm passen können.
Und er wäre menschlicher, verständlicher und interessanter gewesen. So wie „Der Sophie Passmann Podcast“ eben. Eine alte, journalistische Lehr-Regel lautet „Nichts interessiert Menschen mehr als Menschen“. Und das betrifft nicht nur die Themenwahl, sondern genauso die Aufbereitung der Informationsvermittlung.
Der Beitrag Was Sophie Passmann und der SWR über die Fehlwahrnehmung von Large Language Models verraten erschien zuerst auf Indiskretion Ehrensache.