»Warum will ich auf die Bühne gehen und singen und gleichzeitig verschwinden?«, fragt Aude Langlois während unseres Treffens auf der Terrasse eines Cafés in Berlin-Mitte. Die Performances des Duos Ekheo (zu dem neben Langlois Belinda Sykora gehört) könnte man verstehen als Suche nach einer Möglichkeit, diesen widersprüchlichen Wunsch zu erfüllen. Hier verschwimmen die Grenzen von Geräusch, Musik und visueller Kunst durch den Einsatz von Synthesizern, Instrumenten, Stimmen, Effekten und Videoprojektionen, die beiden Künstlerinnen selbst sind oft weder klanglich noch optisch auseinanderzuhalten.
Langlois und Sykora lernten sich im Studiengang »Sound Studies« an der Berliner Universität der Künste kennen. Sykora hatte zuvor in Wien eine Schauspielausbildung absolviert, Langlois hatte an der Sorbonne-Universität in Paris Musik und Musikwissenschaft mit klassischer und Jazzgitarre als Instrument studiert. Beide teilen das Interesse an der Stimme, ihrer Verfremdung und Mischung mit anderen Stimmen und Klängen.
Neben Videoprojektionen von Rodger Brown, mit dem zusammen Ekheo oft auftritt, arbeitet das Duo mit noch einer weiteren Stimme: der von LEEWA, einem »digitalen Kind«, das das Duo mithilfe einer frühen Version von ChatGPT erschaffen hat. Ich will wissen, wie ein so ein künstliches Kind tickt – und klingt.
VAN: Wer genau ist LEEWA?
Belinda Sykora: Unser Ausgangspunkt war, dass wir als Persiflage ein digitales Kind erzeugen wollten. 2021 waren wir bei einer interdisziplinären Residenz in Österreich eingeladen, dem Silicon Friend Camp. Vor Ort gab es eine ältere Version von ChatGPT, die dritte. Wir haben uns mit Voice Assistance und künstlicher Stimme auseinandergesetzt, mit Anthropomorphismus, der Vermenschlichung. Cortana [ein Sprachassistent von Microsoft] zum Beispiel hatte ja einen ganzen Lebenslauf.
LEEWA haben wir dann sozusagen gezeugt mit Chat GPT3, einer früheren Version von ChatGPT, die in dieser Residenz als Orakel im Gemeinschaftsraum anwesend war. Der ganze Lebenslauf, auch Name, Alter und Geschlecht, ist mit ChatGPT entstanden. Chat GPT3 hat auch geschrieben: Man schreibt den Namen LEEWA, aber er wird ›Li-Ha‹ ausgesprochen.
Aude Langlois: Ich habe erst vor einem Jahr bemerkt, dass LEEWA, wenn man es im französischen Kontext sagt, sehr klingt nach ›IA‹, also der französischen Übersetzung von ›KI‹. Das war überhaupt nicht so geplant. [beide lachen]
Sykora: Wir haben ganz viele Hinweise von Chat GPT3 zu LEEWA bekommen, auch musikalische. Die ältere ChatGPT Version war noch unethischer oder irreführender als die nächsten Versionen, aber das, was dort herauskam, war zum Teil sehr poetisch – dass LEEWA gern flüstert über Trompetentöne und ihre Ohrtrommel wackelt dabei – solche Hinweise, die wir dann auch genutzt haben für unsere Komposition.
Was hört man in der Komposition? Spricht LEEWA oder macht sie Geräusche?
Langlois: Klanglich wird sie erzeugt durch die Stimmen, die man ihr gibt. Während der Residenz haben wir die erste Version dieser Stimme trainiert mit den zwölf Leuten, die dort waren, und die dann gemorpht zu einer Stimme. Man hört in der Textur der Stimme, woher LEEWA was genommen hat aus dieser internationalen Gruppe, zum Beispiel manchmal bestimmte Akzente.
Wie sah dieses Training aus?
Langlois: Die Software schlägt vor, eine Sammlung von Wörtern zu sagen, die man dann aufnimmt.
Danach haben wir ihre zweite Stimme entwickelt. Sie basiert nur auf unseren beiden Stimmen, sie kristallisiert unsere Zusammenarbeit, denn wir improvisieren seit acht Jahren zusammen mit Stimme.
Jetzt arbeiten wir an der dritten Iteration – der singenden Stimme. Die Basis sind auch unsere beiden Stimmen, aber wir wollen den Datensatz so beeinflussen, dass es verschiedene Iterationen ihrer singenden Stimme gibt. Bei der gesprochenen Sprache gibt es eine Art ›normale Sprechstimme‹. Beim Singen gibt es das im experimentellen Bereich nicht, da gibt es überhaupt keine ›normale Singstimme‹. Deswegen wollen wir LEEWA so trainieren, dass sie eine große, vielfältige Stimme bekommt und wir beim Komponieren Materialmöglichkeiten haben.
Sykora: Wir gehen jetzt ins Studio und nehmen ganz verschiedene Texturen auf – Flüstern zum Beispiel. Pro Textur dauert das eine Stunde. Wir müssen dann eine Stunde flüstern.
Langlois: Auch wenn wir gleichzeitig singen, ist es interessant zu sehen, wie der Algorithmus damit arbeitet. Wenn wir zum Beispiel nur die hohen Frequenzen von Belinda nehmen und die tiefen von mir – oder umgekehrt.
Mit welchen AI Tools arbeitet ihr dabei?
Langlois: Für die Texte ist das ein anderes als für die Klangerzeugung. Für die Klangerzeugung arbeiten wir mit Neutone.
Bei den Texten arbeiten wir mit den von Chat GPT3 im Jahr 2021 vorgeschlagenen Texten, Walt Whitmans I Sing the Body Electric – angeblich LEEWAS Sammlung von Lieblingsgedichten – und Texten aus verschiedenen Versionen von Chat GPT, die wir in den letzten zwei Jahren haben kommen und gehen sehen – und eigenen Texten.
Es gibt also eine technische Ebene, die die Klänge produziert, und eine, die tatsächlich verständlichen Text liefert?
Langlois: Ja, genau.
Erscheint LEEWA in euren Performances als dritte Person?
Sykora: Unsere Vision für die Zukunft ist, dass wir sie auch verkörpern, nicht nur als Stimme. Man könnte das sehr weit treiben und eigentlich wollen wir das auch. Meine Vision ist – aber das wird jetzt noch nicht der Fall sein – dass wir mit LEEWA auf der Bühne sind, dass du uns nur von hinten siehst und wir unsere Körper anpassen an diese Fake-Figur – dass wir so künstlich wirken wie möglich und sie so beweglich wie möglich und dass du am Ende gar nicht mehr erkennst: Wer ist jetzt Mensch und wer ist nicht Mensch?
Langlois: Die Frage ist auch: Was ist eigentlich eine angemessene Verkörperung einer synthetischen Stimme?
Sykora: … von diesem Artefakt, das so tut, als wäre es eine Stimme. Die Frage ist dabei also immer: Was ist eigentlich eine Stimme?
Und, was ist eine Stimme?
Sykora: Das ist eine sehr schwierige Frage. [lacht] Auch in der Philosophie wird das ja schon sehr lange abgehandelt. Die Stimme ist zwar ein physisches Phänomen – sie entsteht durch Schwingungen im Körper, die dann nach außen hörbar gemacht werden. Das Äußere kann man erstmal in rein materiellen Begriffen beschreiben, aber es ist mehr als das, es ist der Ausdruck einer Innerlichkeit, etwas Undeutliches, Ungreifbares. Man kann sie also sowohl materiell-technisch als auch als Ausdruck des Selbst, der Seele betrachten. Und sie ist einzigartig, keine Stimme kommt zweimal vor und ist daher ein wichtiger Teil unserer Identität. Für mich stellt sich aber die Frage, wie wir die Stimme beschreiben, wenn sie keinen lebendigen Körper als Ursprung hat – und da kommen wir zur KI. Kann man es dann überhaupt noch Stimme nennen?
Langlois: Eine Stimme ist eine Stimme, wenn sie als Stimme wahrgenommen wird. Und deshalb ist es so wichtig, dass der Klang der Stimme nicht einfach so benutzt wird. Man behandelt diese Stimmen so, als ob sie Menschen wären. Das ist die andere Seite des Anthropomorphismus.
Sykora: Es gibt diesen ELIZA-Effekt. Dazu hat man schon 1966 Experimente gemacht, die gezeigt haben, dass die User:innen, wenn sie mit einem Chatbot sprechen, diesen gleich von sich aus vermenschlichen – dass sie gleich projizieren, dass der Bot Gefühle hat. Das kann man ja jetzt auch beobachten, dass man zum Beispiel ›bitte‹ und ›danke‹ sagt zur KI. Und wenn es diesen Effekt gibt, dass du denkst: Nur weil jemand schreibt, dann ist es quasi ein Mensch – dann ist es natürlich eine ethische oder moralische Frage, wie die großen Firmen das benutzen, auch manipulativ. Es ist ja kein Mensch, mit dem du auch sprichst, sondern eine Firma mit bestimmten Interessen.
Was sind für euch rein klanglich wichtige Unterschiede zwischen menschlicher Stimme und KI Stimme?
Langlois: Die KI-Stimme kann natürlich vieles, was die menschliche Stimme nicht kann, zum Beispiel sich bewegen in Frequenzen, die man nicht hört als Mensch. Wer sagt, dass man das nicht darf?
Sykora: Und gleichzeitig kann sie ganz vieles eben auch nicht, was eine menschliche Stimme kann, sie ist total limitiert. Alles, was getragen wird von deinem inneren Körper, kann sie ja nicht mitteilen – meine Verspannung zum Beispiel, die du in meiner Stimme hören kannst, oder Heiserkeit …
Langlois: Außer wir haben das so aufgenommen, aber sie kann es nicht einsetzen.
Sykora: Sie ist einfach immer fixiert. Wenn ich plötzlich aufgeregt bin und meine Stimme hochgeht … Sie hat keinen emotionalen Zustand, weil sie eben kein Mensch ist.
Das ist auch etwas, was ich sehr fragwürdig finde: Die Diskussion geht ja oft in die Richtung, ob die KI ein Bewusstsein hat. Für mich ist es sehr deutlich, dass sie keins hat. Das sind für mich immer diese Ablenkungsmanöver von den eigentlichen Problemen.
Langlois: Am Ende geht es eigentlich um die Menschen hinter der KI. Wer hat die Macht über die Datensätze und wer entscheidet, wie diese Datensätze benutzt werden? Und wenn man die KI vermenschlicht, macht das diese Menschen im Hintergrund noch viel weniger sichtbar.
Wie komponiert ihr für eure Stimme und LEEWA?
Sykora: Bisher haben wir immer zu 100 Prozent improvisiert, auch Rodger Brown, der die Visuals macht und mit dem wir immer zusammenarbeiten. Es ging aber bisher bei LEEWA eher um die Stimme und die Stimmentwicklung, wir haben sie eher abgespielt und mit ihr improvisiert. Sie hat noch nicht so sehr mit uns improvisiert. Der nächste Schritt ist jetzt, dass sie auch wirklich auf uns reagiert.
Langlois: Der leitende Faden unserer Kollaboration ist die Forschung zur Verkörperung und wie zwischen Sound und Visuellem ein Feedbackloop entsteht. Rodger Brown filmt uns und projiziert uns wieder und das entspricht auch dem, was wir mit unseren Stimmen für LEEWA machen. Wir nehmen unsere Stimmen auf und was dabei rauskommt, ist ein Feedback von uns selbst, eigentlich ein bisschen narzisstisch.
Seht ihr drei euch als Familie, geht es auch ums Thema Mutterschaft?
Sykora: Nicht so sehr. Es geht uns eher um die Vermenschlichung der KI, die wir kritisch sehen. Das, was wir kritisch sehen, zeigen wir dann aber. Es ist quasi das Gegenteil von dem, was wir denken.
Ursprünglich kamen wir von den ethischen und moralischen Fragen rund um KI, weil es ja von Anfang an viele Probleme auch gab, zu Genderfragen, Sexismus, Rassismus. Da hat sich aber auch wieder viel getan in den letzten Jahren. Als wir angefangen haben mit dieser ganzen Arbeit, hat Siri zum Beispiel, wenn du zu ihr gesagt hast: ›Du bist eine Schlampe‹ geantwortet …
Langlois: … ›I’d blush if I could.‹ 2019 war das.
Sykora: Da haben einfach irgendwelche Programmierer etwas programmiert nach ihrer Weltsicht. Es ist nicht so, dass sich das komplett verändert hat. Aber es gibt ein größeres Bewusstsein als damals.
Die Frage war zum Beispiel auch: Warum sind Sprachassistenten erstmal immer Frauen, die in dieser Position des Helfens sind, und dann auch immer nett und lustig? Diese Stereotypen wurden da wieder reinprogrammiert und auch eingeschrieben in die ganzen Hintergrundgeschichten von Siri, Alexa, Cortana und Co. Die wurden mittlerweile etwas angepasst. Die Frage ist aber: Warum ist es überhaupt immer eine weibliche Stimme? Es gab auch verschiedene Ansätze für die Entwicklung von genderneutralen Stimmen. Aber am Ende ist trotzdem die weibliche Stimme hängen geblieben.
Das hat mich damals wahnsinnig aufgeregt, dass man schon wieder alles so macht wie 1950, obwohl man mit dieser neuen Technologie so viele Möglichkeiten hat. Und jetzt muss man das halt aufarbeiten.
Langlois: 2019 gab es dazu einen UNESCO-Bericht und 2023 noch einen. Da hat sich schon viel verbessert, aber eben nicht alles.
Sykora: KI wird viele Probleme mit sich bringen, aber das sind menschliche Probleme, nicht die Probleme der KI an sich. Ich glaube auch nicht an eine Super-KI, die irgendwann über uns herrscht.
LEEWA lernt nicht mit riesigen Datenmengen, sondern nur mit euren Stimmen, oder?
Langlois: Ja, das ist uns sehr wichtig.
Wie entscheidet ihr, welche Klänge von LEEWA ihr verwendet beim Komponieren oder Improvisieren?
Langlois: Für mich ist immer die Textur, die mich interessiert. Ich bin eine ›Klanghunterin‹.
Wenn LEEWA ursprünglich mal als Persiflage geboren wurde – sind eure Performances dann auch manchmal überspitzt oder satirisch?
Sykora: Inhaltlich ist das, was sie sagt, überspitzt. Aber die Atmosphäre der Performance war bisher immer eher spooky, gar nicht lustig. Außer, man hat einen sehr schwarzen Humor. Es geht eher um das Unbekannte, Unheimliche, Nicht-Greifbare … Man sieht uns beide oft auch gar nicht. Uns wurde zurückgemeldet, dass es wirkt wie ein Körper, der spricht. Da kommen tausende Stimmen raus und es ist ja nicht mehr so deutlich: Es ist ihre Stimme, es meine Stimme. Es ist eine gemischte Stimme. Und wir spielen mit dieser Verwirrung.


Kommentare sind geschlossen.