Gastkommentar ••• Von Robert Draxler
LINZ. Die Künstliche Intelligenz (KI) hält zunehmend Einzug in viele Bereiche der Audioproduktion. Sie kann Stimmen synthetisieren, Musik komponieren und sogar komplette Audioinhalte generieren. Obwohl die Technologie rasant fortschreitet, stößt sie in vielen Bereichen noch an ihre Grenzen. Besonders wenn es um Emotionen und Nuancen in der Sprache geht, bleibt die menschliche Stimme unverzichtbar.
KI passt nicht immer
Ein gutes Beispiel dafür ist die Werbung. In Werbespots geht es oft darum, durch verschiedene Ausdrucksweisen gezielt Emotionen beim Hörer hervorzurufen. Freude, Spannung oder Mitgefühl – all diese Gefühle kann ein erfahrener Sprecher gezielt vermitteln. Eine KI hingegen arbeitet auf Basis von Algorithmen und kann bisher keine echten Emotionen empfinden oder mit natürlicher Dynamik wiedergeben. Deshalb setzen wir von Drex-Records in diesem Bereich weiterhin ausschließlich auf Stimmen aus Fleisch und Blut.
Ein weiteres Anwendungsfeld sind Telefonansagen und Warteschleifen. Hier arbeiten wir hauptsächlich mit menschlichen Stimmen, da eine persönliche Note oft erwünscht ist. Anders sieht es bei fremdsprachigen sachlichen Telefontexten aus. Hier zeigt sich die KI als äußerst nützlich. Besonders wenn es um standardisierte Texte geht, liefert die Technologie bereits sehr überzeugende Ergebnisse. Die Effizienz, Kosten und Zeitersparnis die sich durch KI-generierte fremdsprachige Ansagen ergeben, sind nicht von der Hand zu weisen.
Nützlich für Informationen
Ebenfalls besonders gut einsetzbar ist die KI bei der Produktion von erklärenden Texten, Betriebsanleitungen und Tutorials, da hier die sachliche Vermittlung von Informationen im Vordergrund steht, und weniger die emotionale Wirkung. Mit wenigen Klicks können so Tutorials in sämtliche Weltsprachen transferiert werden.
Ein Beispiel aus unserer Arbeit: Ein Tutorial-Video musste in drei Sprachen vertont werden – Deutsch, Englisch und Spanisch. Während die deutsche Fassung von einer unserer Sprecherinnen aufgenommen wurde, nutzten wir für die fremdsprachigen Versionen die Möglichkeiten der KI. Wir klonten die Stimme der Sprecherin, selbstverständlich mit ihrer Einwilligung, und erzeugten mithilfe von „Text-to-Speech” die englische und spanische Version. Das Ergebnis war überzeugend: Die KI hatte von der ursprünglichen Aufnahme gelernt und somit eine hohe natürliche Klangqualität beibehalten.
Im Bereich der Komposition für Audio-Logos oder Corporate Audio hingegen verzichten wir noch komplett auf KI. Wir legen großen Wert auf eine individuelle Ausarbeitung und eine gezielte Abstimmung der Klangwerte – eine Arbeit, die bei uns von Menschenhand ausgeführt wird.
Der Mensch bleibt wichtig
Die KI entwickelt sich stetig weiter, wir stehen erst am Anfang einer spannenden Reise. Sie wird in vielen Bereichen der Audioproduktion eine immer größere Rolle spielen. Dennoch bleibt der Mensch in kreativen und emotional anspruchsvollen Bereichen weiter unersetzbar. Es bleibt spannend zu beobachten, wohin die Technologie in den kommenden Jahren führen wird.