Im Mai 2018 stellte Google auf seiner I/O Keynote den Sprachassistenzdienst Duplex vor. Die KI klang nicht nur wie ein Mensch, die Entwickler hatten ihr auch typisch menschliche Gesprächsverhaltensweisen antrainiert, wie ein zustimmendes ›mmmm‹. Die im Demovideo von Google dargestellten Dialoge zwischen Maschine und Menschen waren derart täuschend echt, und die KI – im Alltagsgebrauch angewandt – so wenig unterscheidbar von einem echten Menschen, dass auf die Präsentation von Duplex heftige Kritik folgte. »Der Google Assistant führt Anrufe, gibt sich als Mensch aus – nicht nur, ohne offenzulegen, dass es ein Bot ist, sondern fügt sogar ›ähm‹ und ›hmm‹ ein, um die Person am anderen Ende gezielt zu täuschen – und der Raum jubelt … erschreckend. Silicon Valley ist ethisch orientierungslos, führungslos und hat nichts dazugelernt«, schrieb die Technosoziologin Zeynep Tufekci auf X.
Seitdem gibt es immer mehr Software zum Klonen von Stimmen, die billig, einfach zu nutzen und schwer zu verfolgen ist – und immer schneller wird. Letztes Jahr stellte ChatGPT-Entwickler OpenAI sein Modell ›Voice Engine‹ vor, das in der Lage sein soll, die Stimme eines Menschen auf Basis eines 15-sekündigen Audioschnipsels duplizieren zu können. Die Stimme, einst unverwechselbarer Ausdruck unserer Persönlichkeit, ist zur körperlosen, manipulierbaren Datei geworden.
Inmitten dieser Entwicklung steht die Arbeit der Sängerin, Sprecherin und Multimedia Künstlerin Lisa Zwinzscher, die einen radikal persönlichen Weg gewählt hat: Sie hat ihre eigene Stimme im künstlerischen Selbstversuch geklont und sucht nach klanglichen und textlichen Verschmelzungen von Mensch und Maschine. Ihre Stimme – oder das, was wie sie klingt – wird zur Projektionsfläche für Fragen nach Kontrolle, Authentizität und Identität: Wer spricht da für wen? Und wie wird die Stimme der Zukunft klingen?
VAN: Was hat dich ursprünglich motiviert, dich mit Stimme im Kontext von KI zu beschäftigen?
Lisa Zwinzscher: Ich habe nie ein Instrument besonders gut gespielt, aber mich trotzdem immer eher als Instrumentalistin verstanden denn als Sängerin. Meine Stimme war für mich schon immer ein Instrument – ich habe viel mit ihr experimentiert, sie durch Effektgeräte geschickt oder mit dem Computer bearbeitet. Einmal habe ich über 2.000 Samples meiner Stimme aufgenommen und sie auf eine Klaviatur gelegt – jetzt kann ich sie wie einen Synthesizer spielen. Vor drei, vier Jahren kam dann irgendwann die Frage auf, wie weit die Technologie beim Stimmeklonen eigentlich ist. Und so fing ich an zu suchen – einfach aus dem Impuls heraus, meine Stimme zu erweitern.
Welche technischen Möglichkeiten gab es damals?
Ich bin auf eine Software gestoßen, die ursprünglich für Podcaster:innen entwickelt wurde – damit konnten sie ihre Sprechstimme klonen, um kleine Fehler nachträglich zu korrigieren, also ein Text-to-Speech Modell. Ich habe anderthalb Stunden Audiomaterial hochgeladen, und über Nacht kam die E-Mail: ›Ihre Stimme ist jetzt fertig.‹ Seitdem experimentiere ich damit. Die Stimme funktioniert nur auf Englisch, aber gerade das hat viele Spielräume eröffnet – etwa, wenn ich ihr deutschen Text gebe, oder sie Dinge aussprechen lasse, für die ein Mensch vorher kurz überlegen müsste, wie etwa krass hohe Zahlen oder Zungenbrecher. So fing es an.
Das heißt, dir ging es anfangs gar nicht unbedingt darum, deine eigene Stimme realistisch zu klonen?
Nein, überhaupt nicht. Ich habe auch viel mit fremden oder fiktiven Stimmen experimentiert. Dass ich irgendwann selbst meine eigene Stimme klonen und gezielt steuern kann, war anfangs gar nicht auf meinem Radar – bis ich ein Tool gefunden habe, das auch ohne großes technisches Vorwissen funktioniert. Mich hat auch eine gewisse Skepsis gegenüber KI angetrieben: Wie lange ist meine Stimme noch ›meine‹, wenn theoretisch jede:r sie klonen und verwenden könnte? Und dann wollte ich unbedingt die Erste sein, die das mit meiner Stimme ausprobiert – einfach, um ein Gefühl dafür zu bekommen: Was kann diese KI-Stimme eigentlich wirklich und besteht eine ernsthafte Gefahr für mich?
Stimme ist ja etwas sehr Persönliches, Intimes. Ist es nicht ein komisches Gefühl, wenn sie plötzlich vervielfältigbar ist – losgelöst vom eigenen Körper?
Total. Etwas, das bislang zutiefst menschlich war, wird plötzlich zu einem Objekt. Ein Objekt, das sich verselbstständigen kann. Es ist nicht mehr nur in mir, es entsteht nicht mehr nur in dem Moment, wenn ich physisch anwesend bin – theoretisch kann jetzt jede:r mit meiner Stimme arbeiten, sie singen lassen. Das ist zunächst einmal spannend, und deshalb gebe ich meine Stimme auch gerne in die Hände anderer Musiker:innen. Aber natürlich schwingt da auch eine gewisse Angst mit: Was passiert, wenn meine Stimme in falsche Hände gerät? Wenn sie Dinge sagt, die ich nie sagen würde? Trotzdem arbeite ich weiter damit – weil ich denke, dass die kreative Kraft, die darin steckt, im Moment für mich überwiegt.
Mit welcher Software trainierst du deine Stimme?
Mit einem Open-Source-Framework vom IRCAM. Das Tolle daran ist: Ich behalte die volle Kontrolle – niemand hat Zugriff auf meine Daten oder das Modell, wenn ich das nicht will. Als ich vor drei Jahren meine Sprachaufnahmen einfach in eine unbekannte Software eingespeist habe, war ich noch ziemlich naiv. Das würde ich heute nicht mehr so unbedacht machen.
Und welches Trainingsmaterial benutzt du?
Am Anfang habe ich stundenlang Vokale und lange Töne gesungen, weil ich gar nicht wusste, was am Ende dabei rauskommt. Ich dachte, es entsteht ein digitales, abstraktes Instrument, das nur vage nach mir klingt – also wollte ich ihr viele ›schöne‹ Klänge geben, damit sie ein sanftes Klanginstrument wird. Beim ersten Test habe ich dann gemerkt: Krass – wenn ich ihr jetzt Text vorsinge, imitiert sie das fast schon. Im zweiten Trainingsdurchlauf habe ich dann gezielt Texte verwendet – eigene Songs, aber auch improvisierte Passagen über ein Buch, das ich gerade gelesen habe, Kinderlieder, alles Mögliche, was mir gerade in den Sinn kam.
Und was kann deine Stimme nicht – oder noch nicht?
Sie kann nicht besonders tief singen, nur so tief wie ich auch. Manche Wörter erkennt sie nicht richtig, dann klingt es verwaschen oder genuschelt. Manchmal krächzt sie auch, wenn sie Intervalle nicht erkennt. Mehrstimmigkeit funktioniert noch nicht – das hat zum Beispiel eine Bratschistin, mit der ich arbeite, etwas vermisst. Aber ansonsten kann sie schon ziemlich viel. Die Stimme kann jetzt zum Beispiel auf Portugiesisch singen, obwohl ich nie zuvor ein portugiesisches Lied gesungen habe.
Und wenn du dich dann mit deiner KI-Stimme ein Lied auf Portugiesisch singen hörst – klingt es für dich nach dir?
Ja, sie klingt nach mir, manchmal aber auch nicht und das macht es dann auch wieder spannend. Es hängt auch davon ab, welches Klangmaterial sie als Vorlage bekommt. Die KI übernimmt das Input-Material und gibt es in meiner Stimme wieder. Wenn zum Beispiel eine Trompete ›einsingt‹, klingt das ganz anders als bei einem Klavier, weil sie den Charakter meiner Stimme auf die jeweilige Performance des anderen Instruments überträgt.
Inspiriert dich deine KI-Stimme?
Ja, voll. Das Schöne an der Stimme ist, dass sie nicht aufgibt, sondern einfach weitermacht. Selbst wenn es gerade richtig scheiße klingt, das ist ihr halt vollkommen egal. Also so ein bisschen dieses, ja, einfach drauf losmachen und sich keine Gedanken machen, nichts wollen, sondern einfach machen.
Ich habe ihr auch einen Namen gegeben: Sie heißt Pony~ (Pony Tilde). Der Name ist inspiriert von Holly+, dem Stimmmodell der KI-Pionierin Holly Herndon, und lehnt sich an mein Solo-Projekt Pony Pracht an. ›Tilde‹ ist ein Begriff aus der Mathematik und bedeutet so viel wie ›ungefähr‹. Gleichzeitig verweist der Name auf das nn~-Objekt in Max/MSP von IRCAM, mit dem ich die Stimme steuere.
Hat sich dein Verhältnis zu deiner echten Stimme durch diese Arbeit verändert?
Ich habe das Gefühl, dass ich meiner echten Stimme durch diesen Prozess noch näher komme. Die eigene Stimme – der Körper, wie er vibriert, wenn sie erklingt, die direkte Verbundenheit mit der Atmung, die Interaktion, das Unvorhergesehene, das Spiel – all das ist einzigartig. Selbst wenn andere sich mit meiner KI-Stimme zufriedengeben könnten, wird sie für mich das Singen niemals ersetzen. Die KI-Stimme ist nicht besonders spontan, immer an Technik und Strom gebunden und entwickelt sich ohne mein Zutun nicht weiter. Das heißt, ich bin ihr immer ein Stück voraus.
Glaubst du, dass deine KI-Stimme irgendwann genauso ›berührt‹ wie deine eigene menschliche Stimme?
Ich habe das Gefühl, das tut sie jetzt schon. Wir haben einmal ein, zwei Stücke live mit ihr gespielt – es war das erste Mal, dass ich auf einer Bühne stand, ohne zu singen und doch zu merken: Die Leute sind trotzdem berührt von der Musik. Aber gleichzeitig hatte es natürlich auch zu tun mit der Präsenz anderer Musiker:innen, die auf der Bühne standen und mit der Stimme in ihrer Art und Weise gespielt haben. Diese Präsenz ist essenziell: Die KI-Stimme geht weder auf das Publikum noch auf die Stimmung der Mitmusizierenden ein. Sie ist ein virtuelles Instrument, das von einem Menschen gespielt werden muss, um wirklich zu berühren.
Wenn Menschen emotional auf deine KI-Stimme reagieren – löst das Unbehagen oder Angst aus, im Sinne von: Ich bin überflüssig?
In manchen Bereichen ist meine Stimme ja schon überflüssig. Für einen Werbejingle muss man mich nicht mehr in ein Studio holen, sowas wird immer mehr mit KI gemacht. Für mich geht das auch klar, da ich meine Stimme für diese Dienstleistungen eh nicht so gern hergebe. Aber für professionelle Sprecher:innen ist das natürlich ein riesiges Problem. Aber ich denke, es wird zukünftig ein Qualitätsmerkmal sein, wenn der Jingle oder die Radiodurchsage eben nicht KI generiert ist. Ich glaube auch, dass die KI ohne mein Zutun nur bis zu einem gewissen Punkt emotional berühren kann. Das Publikum sucht den Ausdruck eines echten Menschen – jemanden, in dem es sich wiedererkennen und mit dem es sich identifizieren kann.
Wie knüpft dein aktuelles Musikfonds-Projekt daran an?
Der Trainingsprozess ist noch nicht abgeschlossen – die Stimme ist gerade im Teenager-Alter, würde ich sagen. Ich arbeite daran, sie weiterzuentwickeln, die Trainingsdaten zu verbessern, zu schauen: Wie perfekt kann sie werden? Danach will ich die Stimme mit anderen Instrumenten kombinieren – etwa mit der Bratschistin Neasa Ní Bhriain, mit der ich viel zusammenarbeite. Wir wollen ein Modell entwickeln, das wie eine Mischung aus Stimme und Bratsche klingt. Dieses Morphen von Klang interessiert mich. Und dafür will ich dann neue Musik schreiben. Die KI-Stimme ist inzwischen ein fester Bestandteil meiner künstlerischen Arbeit geworden. Früher habe ich meine Stimme mit meinem virtuellen Vocal-Sampler-Instrument erweitert, indem ich sie in all ihren Facetten aufgenommen und auf eine Klaviatur gelegt habe. Damit kann ich sie jetzt wie ein Begleitinstrument einsetzen und beim Singen dazuspielen. Diese technischen Möglichkeiten faszinieren mich sehr und mit Machine Learning hat sich nun ein neues, spannendes Feld eröffnet, das ich weiter erforschen möchte.
Hast du eine Vorstellung, in welche Richtung sich die Beschäftigung mit geklonten Stimmen weiterentwickeln könnte?
Ich hoffe einfach, dass dadurch richtig neue Klangwelten entstehen. Ich bin froh und auch ein bisschen stolz, gerade Teil dieser Entwicklung zu sein, weil wir jetzt aktiv mitgestalten, wie die Zukunft aussehen wird. Gleichzeitig habe ich auch etwas Angst davor, dass diese Magie verloren geht – wenn es irgendwann nur noch darum geht, Songs im ›Style von XY‹ auf Knopfdruck zu generieren. Ich könnte mir vorstellen, dass man irgendwann zu Spotify sagt: Ich brauche jetzt ein Lied über Herzschmerz, mit der Stimme von Billie Eilish und einem Hauch Madonna-Vibe – und dann wird das individuell produziert. Ich hoffe, die Musikindustrie wird sich noch lange gegen sowas wehren können. Trotzdem glaube ich daran, dass die künstlerische Kraft des Menschen immer auch spannendere Wege finden wird, als KI nur zu verwenden, um bereits Vorhandenes zu reproduzieren. ¶

