»In den vergangenen Jahren ist der Fokus meiner Arbeit von der Komposition für die Konzertbühne zu umfassenderen Raumkompositionen geschwenkt. Ein audiovisueller Gesamteindruck und das Verhältnis von Bewegung, Gestik und Körper ziehen sich durch alle meine Werke«, schrieb Komponist und Bioinformatiker Alexander Schubert schon 2017. Auch heute erforscht er, mittlerweile als Professor für Multimediale Komposition an der Hochschule für Musik und Theater Hamburg, wie sich Musik und menschliche Körper in Performances neu verbinden lassen – im Zusammenspiel mit digitalen Technologien.
Das Ensemble Decoder hat Schubert mitgegründet, außerdem arbeitet er mit Ensembles wie dem Klangforum Wien, dem Ensemble Mosaik oder dem Ensemble intercontemporain, am IRCAM in Paris oder am ZKM in Karlsruhe. Seine Werke wurden bei Festivals wie Wien Modern, Acht Brücken, den Donaueschinger Musiktagen oder den Darmstädter Ferienkursen aufgeführt.
Schuberts Kompositionen wirken zuweilen wie Versuchsanordnungen, in denen Klang, Bewegung und Licht aufeinander reagieren. Dabei nutzt er Elemente aus Techno, Noise, Pop und Free Jazz, ohne sich einem Stil eindeutig zuordnen zu lassen, genau wie Virtual Reality, Robotik und Künstliche Intelligenz – so auch in seiner aktuellen Arbeit The Emergent Self, über die ich mit ihm sprechen will.
VAN: Seit wann beschäftigst du dich mit KI?
Alexander Schubert: Seit meinem ersten Studium, also etwa seit 2004. Da habe ich Informatik und Kognitionswissenschaften studiert mit dem Schwerpunkt Neuroinformatik. Dabei ging es um die Simulation von Neuroaktivität oder Neuroprozessen durch Computermodelle einerseits und die Auswertung oder Analyse von biologischen Gehirnvorgängen durch computergestützte Verfahren andererseits. Ein Zweig davon war auch KI. Damals hat das aber noch niemanden interessiert. In den anderen Vorlesungen saßen hunderte von Leuten und bei den Neuroinformatik- und Künstliche-Intelligenz-Vorlesungen waren wir zu zehnt oder so.
Künstlerisch beschäftigt mich das Thema intensiver seit etwa 2018, als ich mit der Arbeit an Av3ry und Crawl3rs begonnen habe.
Wie habt ihr euch damals die Zukunft von KI vorgestellt? Deckt sich das halbwegs mit dem, was wir heute erleben?
Ich habe in dem Ausmaß, wie wir es jetzt erleben, nicht darüber nachgedacht. Es war dann wirklich eine sehr, sehr steile Kurve über die letzten Jahre. Vieles hat sich verändert: Die Architekturen, die Hardware … Aber die Mechanismen oder die Logik dahinter ist noch verhältnismäßig konsistent zu dem, was ich damals gelernt habe.
Ich glaube, der große Punkt war: Damals hat man viel symbolisch gearbeitet, mit Zeichen, die für etwas stehen – Partituren, Formeln, Gleichungen, solche Sachen. Das klingt jetzt vielleicht sehr abstrakt, aber es ging um Dinge, die etwas beschreiben – eine Partitur, aber nicht die rohen Musik- oder Bilddaten an sich. Auf dieser Datengröße wie heute zu arbeiten, dieses Verständnis gab es nicht.
Die konkrete Umsetzung kam mir recht fern vor – obwohl ich vom inhaltlichen Ansatz der Berechenbarkeit von kognitiven und künstlichen kognitiven Prozessen auch da überzeugt war. Es ging dann nur bedeutend schneller.
2020 meintest du bei der Vorstellung deiner KI-Arbeit Av3ry, dein Verhältnis zu KI hätte sich mit der Zeit verändert. Wie ist dein Verhältnis zu KI heute?
Es gibt auf jeden Fall, finde ich, sehr viele gesellschaftlich schwierige Entwicklungen von KI: wofür sie genutzt wird, wer die Kontrolle darüber hat, welche Ressourcen sie nutzt, auf welchen Datensätzen sie aufsetzt und so weiter. Das ist ja alles hinlänglich bekannt.
Im Musikbereich finde ich die monopolisierte Massenproduktion schwierig. Av3ry hat das ein bisschen gemacht und 20.000 Stücke generiert. Da gab es auch diesen überflutenden Moment. Das hat aber wenig damit zu tun, wie ich KI sonst nutze.
Im Zentrum meiner Arbeit steht auch nicht ausschließlich die Kritik an KI. Obwohl: In Crawl3rs war das schon so, da geht es auch um Fehlinformationen oder auch Manipulationen von persönlichen Daten durch KI.
Was mich jetzt interessiert an KI ist das Blackboxing: dass man sich mit etwas verbindet, dass man Entscheidungen auslagert, vielleicht auch Kognitionen auslagert, aber dabei die Tiefe dieses Werkzeugs nicht vollständig durchblickt – also etwas anderes als dieser Diskurs in der Musik, bei dem es viel um Autorenschaft geht, Wertgenerierung und Monopolisierung.
Kannst du das am Beispiel eines Stücks genauer erklären? Wo findet sich dieses Blackboxing bei The Emergent Self, an dem du gerade arbeitest?
Grundsätzlich habe ich mich in einer ganzen Reihe von Stücken mit einem posthumanistischen Gedanken auseinandergesetzt, so wie ihn auch Katherine Hayles formuliert: dass ein Mensch oder ein Selbst immer schon aus verschiedenen Teilen zusammengesetzt ist und die Module eine eigene Autonomie oder eine eigene Agency haben. Das ist ein Topos, der mich interessiert.
Es gibt verschiedene technische Herangehensweisen, um das umzusetzen, zum Beispiel über Sensoren, auch über Robotik, VR und eben über KI. Das heißt, mich interessiert grundsätzlich das Thema: Wie kann man einen Menschen erweitern oder mit weiteren Modulen verknüpfen und was bedeutet das dann für diese Person, wie sehr ist man bereit, das in sich aufzunehmen oder anzunehmen? Genau das ist ja eine große Fähigkeit des Menschen, sozusagen relativ schnell und fluide Werkzeuge, Erweiterungen, Prothesen – ob digital oder körperlich – in sich aufzunehmen und sich zu erschließen.
Bei The Emergent Self geht es darum, über Sensoren und Bewegungen neuronale Klangerzeuger zu steuern. Die Performenden steuern also über eine Schnittstelle Audio-KI-Modelle.
Früher hat es mich stark interessiert, Dinge zu entwickeln, die sehr klar, sehr nachvollziehbar, sehr deterministisch waren, während ich es jetzt interessant finde, keine so klare rationale Verbindung zu haben. Es ist auch keine zufällige Verbindung, aber es gibt etwas, was sich auf einer Ebene bewegt, die man kognitiv nicht hundertprozentig klar benennen kann. Nicht sowas wie: Wenn ich den Arm nach links drehe, kommt Klang 1 und wenn ich nach rechts drehe, kommt Klang 2, sondern eine etwas komplexere oder tiefere Verbindung, die, wie gesagt, nicht zufällig ist, aber bei der das Ziel ist, etwas zu haben, bei dem das ›Wie‹ durch den Menschen nicht mehr vollständig kognitiv greifbar ist. Man könnte dazu auch sagen: ›Okay, das ist ja einfach ein schlechtes Instrument, das nicht gewährleistet, dass ich weiß, was passiert, wenn ich den Arm so drehe.‹ Das hätte ich vor ein paar Jahren wahrscheinlich auch noch so gesagt.
Heute sehe ich die KI als komplexe Blackbox, zu der man irgendwie Zugriff hat, mit der man interagiert, mit der man auch körperlich verbunden ist, bei der man aber nicht so top-down-mäßig sagt: ›Ich bestimme, dass das jetzt so und so ist.‹ Es gibt eine Art von Verbindung, Interaktion, die nicht ratio-mäßig aus der Agency der Performenden von oben herab gesteuert ist, sondern eher eine Verbindung, die gemeinsam etwas ergibt, was man als ausführende Performerin auch nur erahnen oder miterleben kann – im Gegensatz zum Beispiel zu einer Geige, die man spielt.
Mit irgendwelchen Daten muss diese Blackbox aber ja auch trainiert worden sein. Welche sind das bei The Emergent Self?
Dabei gibt es zwei Aspekte: Das eine ist, wie das Audiomaterial generiert wird. Da habe ich mit ziemlich vielen verschiedenen Sachen gearbeitet, von Stimmen über elektronische Geräusche, Umweltgeräusche … relativ breit. Das andere ist die Verknüpfung – wie dieser komplexe Raum gesteuert wird. Der entscheidende Punkt ist die Verbindung zwischen den Bewegungsdaten und dem Audiomodell, das ist ein nur in Ansätzen erforschter Bereich. Das Ziel ist es, den Bewegungsraum mit seinen Freiheitsgraden des Performers zu einer Deckung zu bringen mit einem multidimensionalen Parameterraum, der die Klangeigenschaften des KI-Audio-Models beschreibt. Diese Verbindung ist überhaupt nicht naheliegend und offensichtlich. Sie kann aber intuitiv, komplex und körperlich sein – ohne dass sie ein reines Trigger-Werkzeug ist.
Wenn es dir um diesen Blackbox-Aspekt geht, warum ist KI dann interessanter als Zufall?
Bei Zufall ist es immer irgendwas anderes. Das Interessante ist, dass man merkt, dass man sich mit einem System fusionieren kann oder es in einer Form nutzen kann oder so eine Art Symbiose eingehen kann, ohne dass man kognitiv vollständig versteht, was die Logik dahinter ist. Das sind, finde ich, schon zwei recht unterschiedliche Dinge.
Wie arbeitest du dann damit? Ist für dich der kreative Prozess vor allem, dieses System zu entwickeln und in der Aufführung steuern es dann aber die Performenden? Oder legst du auch eine Partitur oder Dramaturgie fest?
Bei dieser Arbeit gibt es auch eine Abfolge, eine Metastruktur, aber es geht schon eher darum, das Interface zu bauen und zu gucken, was es macht.
Welche Rolle spielen Gesten für deine Arbeiten?
Sie haben einen hohen Stellenwert. Ich glaube, die Emanzipierung vom reinen Klang hin zu diesen performativeren Stücken, die ich gemacht habe, ist irgendwie auch fast klassisch: über die instrumentale Geste hin zu einer instrumentalen Geste weg vom Instrument.
Bei Convergence zum Beispiel war der Startpunkt eine Art Bibliothek von Gesten oder Handlungsbibliothek, die auch von einer KI gelernt wurden und die dann zur Klassifizierung genutzt wurden.
Ich arbeite auch viel mit VR, Virtualität oder Videoschaltung. Bewegungen eignen sich aber sehr gut, um Interfaces oder Schnittstellen erfahrbar zu machen.




