•• Von Elisabeth Schmoller-Schmidbauer
Künstliche Intelligenz hält zunehmend Einzug in redaktionelle Arbeitsprozesse – auch dort, wo Sensibilität besonders gefragt ist: im Kinderprogramm. Mit dem Format „Radinos Sprachschatz“ setzt Mein Kinderradio erstmals KI-generierte, kindlich klingende Stimmen ein, um Mehrsprachigkeit und Diversität kindgerecht zu vermitteln. Im Interview spricht Anna Michalski, Radino-Station Managerin, über die Beweggründe für diesen Schritt, über ethische und rechtliche Abwägungen, technische Herausforderungen – und darüber, wo für sie die Grenzen des KI-Einsatzes im Kinderradio liegen.
medianet: Ihr Team hat sich bewusst dafür entschieden, KI in einem Kinderradioformat einzusetzen. Warum eigentlich? Aus Kosten- oder Zeitgründen?
Anna Michalski: Hauptgrund ist die zeitliche Flexibilität. Aufnahmen mit Kindern sind eine organisatorische Herausforderung, Elternteil und Kind müssen Zeit haben für eine Aufnahme, und das geht nie ganz spontan. Für die kommenden Monate sind auch zeitlich aktuelle Folgen von Radinos Sprachschatz geplant, zum Beispiel zu besonderen Feiertagen in anderen Kulturen, die kindgerecht erklärt werden, oder wenn Fragen zur Sendung im Hörerservice reinkommen. Da sind wir schneller und unabhängiger, wenn wir mit Text to Speech produzieren können. Ich bin hier auch sehr froh über die Förderung der RTR GmbH, die dieses Projekt unterstützt hat.
medianet: Wie haben Sie intern den Entscheidungsprozess erlebt? Gab es Skepsis im Team, rechtliche Hürden oder ethische Debatten?
Michalski: Natürlich haben wir die ethischen Komponenten im Team durchdiskutiert. Wir angestellte Mitarbeitende sind alle Mütter mit kleiner Kindern, haben also unsere persönlichen Gedanken einfließen lassen, und natürlich rechtlich alles durchgecheckt. Im Endeffekt waren die ethischen Bedenken aber schnell vom Tisch: Unsere KI-Stimmen geben nicht vor, ‚echte Kinder‘ zu sein, wir manipulieren damit niemanden. Und in den Verträgen mit den Eltern der Kinder ist natürlich die Stimmnutzung genau festgelegt.
medianet: Wie wird die kindliche KI-Stimme technisch erzeugt?
Michalski: Es gibt hier am Markt sehr gute Voice-Cloning Software, da braucht man das Rad nicht neu zu erfinden. Der Prozess war dennoch aufwendig: Viele Anbieter verbieten das Klonen von Kinderstimmen generell, andere haben ihr Sprachmodell nicht mit deutscher Sprache trainiert, und natürlich gibt es große Qualitätsunterschiede bei den Ergebnissen. Das hat echt gedauert, aber zum Schluss haben wir die richtige Software für uns gefunden. Die Sprachaufnahmen mit den Kindern waren auch nicht so einfach und haben ihre Zeit gedauert, aber alle hatten Spaß daran und ich bin mit dem Ergebnis sehr zufrieden.
medianet: Welche Kriterien waren bei der Stimmauswahl und -gestaltung entscheidend?
Michalski: Diversität. Wir haben Buben und Mädchen verschiedenen Alters aufgenommen. Wichtig ist einfach, dass die authentisch sprechen, und nicht zu ‚glatt‘, also nicht so perfekt wie Rundfunksprecher oder -sprecherinnen im erwachsenen Alter. Kinder haben einen anderen Sprachduktus, die zögern mal mitten im Wort, werden wieder schneller, und die Stimmfärbung ist auch ganz besonders. Daher kann man auch keine erwachsenen Stimmen pitchen und dafür hernehmen, das klingt einfach anders.
medianet: Warum haben Sie dabei bewusst auf Namen verzichtet? War das eine rechtliche Entscheidung, eine ethische oder programmliche?
Michalski: Ethisch und programmlich. Die Sendung soll nichts vorspiegeln, was sie nicht ist. Hier sprechen keine ‚echten‘ Kinder, also tun wir auch nicht so als ob. Darum haben die Stimmen keine Namen. Für die Kinder die zuhören sind es einfach angenehme Stimmen, die ein bisschen so klingen wie sie selbst, und deswegen sympathisch sind, und die transportieren spannende kindgerechte Inhalte.
medianet: Gibt es Überlegungen, das Format in weitere Sprachen, Dialekte oder interaktive Formate auszubauen?
Michalski: Oh, Dialekte sind eine gute Idee! Daran habe ich noch gar nicht gedacht. Eine Vorarlberger Stimme dabei zu haben, wäre wirklich toll, da müssten wir ausprobieren wieviel Hochdeutsch die KI dazumischt. Bei den Sprachen sind wir ganz flexibel, konzentrieren uns aber derzeit hauptsächlich auf jene, die in Österreich neben deutsch am häufigsten gesprochen werden, also türkisch und BKS, und dann natürlich auch englisch. Bei der Sprachschatz-Folge zum Zählen ist aber zum Beispiel auch japanisch dabei, das ist für Kinder schon interessant, dass eine Sprache so ganz anders klingen kann.
medianet: Welche Maßnahmen stellen sicher, dass der Einsatz einer kindlich klingenden KI-Stimme nicht zu Missverständnissen oder problematischer Nutzung führt?
Michalski: Wie gesagt, wir transportieren keine problematischen Inhalte, im Gegenteil, und spiegeln keine falschen Tatsachen vor. Die Kinder können weder mit der Stimme online interagieren, was heutzutage natürlich auch technisch möglich wäre, noch gibt es online Videos dazu, wo die Stimme dem Bild eines Kindes ‚zugeordnet‘ wird. Es gibt schlichtweg nur die Sendung ‚Radinos Sprachschatz‘ bei uns im Radio, und niemand anderer hat Zugriff auf diese Stimmen.
medianet: Könnte KI langfristig weitere Radioproduktionselemente übernehmen, wie etwa Moderation oder Hörspiele?
Michalski: Das ist derzeit nicht geplant. Die KI war in dem Fall wirklich Mittel zum Zweck, um die Produktion der mehrsprachigen Inhalte organisatorisch möglich zu machen und dieses Diversitätsprojekt zu realisieren. Unser Moderatoren-Team hat sich über Jahre bewährt, Kinder kennen ihre Namen, ich sehe keinen Grund, hier etwas zu ändern.
medianet: Ist synthetische Kindersprache im Radio Zukunft oder Tabubruch – und wo ziehen Sie die ethische Grenze?
Michalski: Ganz klar: Kommt drauf an. Tabubruch nur unter Vorspiegelung falscher Tatsachen. Wenn die Inhalte pädagogisch wertvoll und nicht manipulativ sind und die KI transparent gekennzeichnet wird, gibt es meiner Meinung nach keinen Grund für einen Shitstorm. Die Zukunft wird ein Mix sein denke ich, KI-Kinderstimmen passen gut für Info-Formate, in der klassischen Moderation ist Authentizität zu wichtig.
