Kingo: Neue KI-Stimme
© Kingo
Kingo sagt der Roboterstimme den Kampf an, wie Macher Ingo Steinbach meint.
MARKETING & MEDIA Redaktion 06.03.2026

Kingo: Neue KI-Stimme

Hybride Lösung verbindet Mensch und KI. Interview mit Ingo Steinbach vom Studio SteinHof.

WIEN. Das Studio SteinHof, gegründet von Ingo Steinbach, präsentiert mit Kingo eine innovative hybride KI-Stimme. Steinbach, der auch als Sprecher vieler Werbekampagnen bekannt ist, entwickelte das Tool in Zusammenarbeit mit Patrik Partl, dem Geschäftsführer der Agentur Brokkoli. Kingo ermöglicht nicht nur die automatische Spracherzeugung, sondern reagiert auf Regieanweisungen – eine Kombination aus menschlicher Stimme und KI-Technologie. Damit biete es „eine schnellere, kostengünstigere Lösung bei gewohnt hoher SteinHof-Qualität“, wie Steinbach betont, und hebt sich von standardisierten KI-Stimmen ab. Im medianet-Interview erzählt Steinbach, was ihn zur Entwicklung von Kingo bewogen hat, wodurch sich Kingo von Alternativen abhebt und welche Rolle KI im Audio-Business spielt.

medianet: Was war der konkrete Auslöser für die Entwicklung von Kingo – ging es primär um technologische Innovation, um Selbstschutz vor unautorisiertem Voice-Cloning oder um neue Geschäftsmodelle für Sprecher?
Ingo Steinbach: Alle drei genannten Punkte haben zu unserem Ansatz, meine Stimme mit Kingo zu clonen, beigetragen. Patrik Partl vom Brokkoli Advertising Network hat die Idee angestoßen und mir aus Agentursicht klargemacht, dass Kingo am Markt fehlt. Und deshalb haben Patrik und ich angefangen Kingo zu entwickeln. Viele KI-Stimmen sind zwar technisch beeindruckend, aber sie haben keine Seele. Kingo ist der Versuch, Automatisierung menschlich zu machen. Die Stimme bleibt meine Persönlichkeit – nur die Produktion wird schneller. Der hybride Ansatz macht den großen Unterschied. Automatisierung, wo sie sinnvoll ist – echte, menschliche Aufnahme, wo sie notwendig bleibt. Änderungswünsche können weiterhin von mir selbst im Studio eingesprochen werden.

medianet: Welche Funktionen und Features machen Kingo für Tonstudios und Agenturen besonders attraktiv – und wie unterscheidet sich das System von generischen KI-Stimmen am Markt?
Steinbach: Kingo ist für alle Bereiche außerhalb der klassischen Werbung entwickelt worden. Für Kreativ-Teams in Werbe-Agenturen, die für eine Präsentation eine bekannte, österreichische Stimme verwenden wollen aber die Zeit knapp ist und das Budget sowieso, für Content-Creatoren in den Sozialen Medien, für Marketing-Teams und Filmproduktionen die Produktfilme mit höchster Qualität vertonen müssen und viele andere Bereiche. Bestehende KI-Stimmen klingen kalt, monoton, unpersönlich und bundesdeutsch. In Österreich ein nicht unwesentlicher Faktor. Man hat keinen Einfluss auf falsch ausgesprochene Namen, spezielle Produkt-Bezeichnungen oder komplexe Fachausdrücke. Mit Kingo kann man hier eingreifen und Änderungen beauftragen. Und wenn die Stimme auch für einen TV Spot oder im Hörfunk verwendet werden soll, kennt man den Sprecher und kann ihn beauftragen - denn für klassische Werbung ist Kingo nicht frei gegeben.

medianet: Wo sehen Sie durch den Einsatz von Kingo die größten Effizienzgewinne – etwa in Bezug auf Kosten, Produktionsgeschwindigkeit, Korrekturschleifen oder Verfügbarkeit?
Steinbach: Man kann über www.Kingo.cc einen Text senden, innerhalb von 24 Stunden wird mit unserer KI das Audiofile erstellt und an den Auftraggeber gesendet. Sollte bei dem erstellten Master etwas nicht den Vorstellungen entsprechen, ist eine Korrekturschleife inkludiert und die Änderungen werden nach dem Regie-Briefing vorgenommen. Die Kosten für ein fertiges Masterfile betragen rund 50% der Kosten für ein reguläres Sprecher-Honorar. Und man spart sich durch die hohe Audioqualität bei Kingo auch das Tonstudio für die Sprachaufnahme. Sollte es bei der Finalisierung der Mischung mit Sounds oder Musik Probleme geben, ist mit dem Tonstudio SteinHof eines der renommiertesten Tonstudios des Landes auf schnellstem Weg zusätzlich buchbar.

medianet: Wie wichtig ist in Zeiten synthetischer Stimmen die Wiedererkennbarkeit einer etablierten Sprecherpersönlichkeit für Marken – und kann KI diese Markenbindung stärken statt schwächen?
Steinbach: Eine „blecherne“, generische Stimme, zusätzlich mit stark hörbarem Preußischem Akzent ist im österreichischen Markt sicher kontraproduktiv. Die Stimme von Kingo ist durch das österreichische Timbre und die Wahlmöglichkeit ob Kingo werblich oder redaktionell klingen soll ein absoluter Gamechanger. Große Marken vertrauen seit vielen Jahren auf meine Stimme in der klassischen Werbung. Dort werde ich auch weiter zu den gewohnten Konditionen als Sprecher und Werbe-Produzent arbeiten. Kingo wird aber den gesamten Bereich außerhalb der klassischen Medien, also non Broadcast abdecken.

medianet: Wo stoßen KI-basierte Sprachsysteme derzeit noch an qualitative oder kreative Grenzen – etwa bei Emotionalität, Timing, Interpretation oder kulturellem Feingefühl?
Steinbach: Die KI ist großartig, wenn man genau weiß was man will, was man braucht und wie man das Richtige heraus bekommt. Sobald es um Spannungsbögen und die subtile Message zwischen den Zeilen geht, wird es schwierig.
Durch die Art, wie ich die KI für Kingo trainiert habe, ist es gelungen einen großen Qualitätsvorsprung zu generischen Stimmen zu erzielen. Ganz ist aber die menschliche Komponente nicht zu ersetzen, deshalb gibt es die Regiemöglichkeit und die unterschiedlichen Styles aus denen man auswählen kann. Weil aber eine routinierte, professionelle Sprecherstimme mit all der Erfahrung und Kreativität nicht vollends zu ersetzen ist, bleibt die KI auch außerhalb der klassischen Werbung.
Da behalte ich mir vor meine Expertise und Erfahrung exklusiv einzubringen.

medianet: Wenn Sie in die Zukunft blicken: Welche Rolle wird der menschliche Sprecher trotz KI dauerhaft spielen – und in welchen Bereichen bleibt der Mensch aus Ihrer Sicht unersetzbar?
Steinbach: Es geht immer um die Verbindung zwischen Menschen. Die KI kann viele Schritte übernehmen, Prozesse verkürzen und Kosten einsparen. Die letzte Instanz bleibt aber der Mensch. Als Sprecher, also als Voice Over Artist, etwas
Subtiles mitschwingen zu lassen, eine Emotion zu verstehen und diese dann so auf die Stimmbänder zu legen, dass beim Empfänger das Richtige ankommt ist eine Kunst. Und das, meine ich, bleibt dem Menschen vorbehalten. (esc)

 

BEWERTEN SIE DIESEN ARTIKEL

TEILEN SIE DIESEN ARTIKEL