Back to overview

Online Magazin

"Punk Isn't Dead" ... ­KI sei dank!

Wie klingt Musik, die mithilfe von künstlicher Intelligenz entsteht? Matthias Frey hat das erprobt und dabei eine legendäre Rockband wieder zum Leben erweckt. Klänge und KI sind Teil des beruflichen Alltags in seiner Tätigkeit als Chief Analyst Technology für einen globalen Elektronikkonzern. Noch sind komplett computergenerierte Songs Zukunftsmusik … doch für Matthias Frey ist klar: es gibt nichts, was der Mensch kann, das eine KI eines Tages nicht auch können wird.

Mit Matthias Frey sprach Oliver Bosse

Sie haben vor einiger Zeit ein interessantes Projekt umgesetzt: Sie haben mittels künstlicher Intelligenz den einzigartigen Sound der Kultband „The Ramones“ nachgestellt, oder wie würden Sie beschreiben, was Sie mit „THE RAiMONES“ geschaffen haben?
Die Ramones waren eine coole Band, von der leider mittlerweile alle ursprünglichen Mitglieder verstorben sind. Mit „THE RaiMONES“ wollte ich ihre Musik mittels künstlicher Intelligenz sprich Machine Learning wieder zum Leben erwecken. Dabei interessierten mich vor allem zwei Aspekte: Erstens die Umsetzung – wie und mit welchen Daten geht dieser Lernprozess optimal vonstatten – und zweitens was dabei in Sachen Kreativität herauskommt.

Und was kam heraus?
„THE RaiMONES“ war ein kleines, privates Projekt. Ich habe dabei keine kompletten Musikstücke kreiert, sondern „Soundfetzen“. Diese habe ich dann einem Kollegen aus Japan geschickt, der schon mit den Ramones gespielt hat. Als dieser die generierten Noten für Gitarre und Bass plus Lyrics erhalten hat, konnte er innert Stunden einen Song draus machen.

Sie haben die Datenlage angesprochen. Ohne sie geht natürlich gar nichts. Was ist für ein Projekt wie das Ihre nötig?
Es gibt in erster Linie zwei Arten, dies anzugehen: Entweder lehrt man das Neuronale Netzwerk gleich von Beginn an, Musik zu spielen wie die Ramones, oder man lehrt es zuerst von Grund auf, Musik zu spielen – also alle Akkorde, etc. – und dann erst zu spielen wie die Ramones. Bei meinem Projekt arbeitete ich direkt mit der Datengrundlage der Ramones. Entsprechend ist das ganze etwas limitiert. Das vermutlich qualitativ bessere Resultat hätte ich erzielen können, wenn ich das Netzwerk zunächst mittels Transfer Learning mit einem ganzen Musik-Korpus und erst anschliessend auf den spezifischen Ramones-Stil trainiert hätte. Dafür fehlte mir allerdings bei diesem privaten Projekt schlicht die Zeit und auch die Rechenleistung.

Wie viele Daten es genau braucht, um so das Netzwerk zu trainieren, lässt sich pauschal nicht beantworten. Das hängt auch vom Netzwerk ab. Dasjenige, welches ich verwendet habe, war relativ simpel, weil auch die Daten limitiert waren (Anmerkung der Redaktion: 130 Songs im MIDI-Format und Texte aller ihrer 178 Songs).

Und von welcher Art von Daten sprechen wir?
Grundsätzlich gibt es bei Musik auch hier zwei Varianten: Entweder man verwendet die Midi-Daten, sprich die Noten, oder man nimmt die Audiofiles. Wobei Audiofiles mit 44‘100 Samples pro Sekunde natürlich viel mehr Daten liefern, aber dafür auch viel komplexer sind. Beispielsweise die Projekte Magenta von Google oder die Dadabots arbeiten mit Audiofiles, OpenAI’s Musenet verwendet MIDI Daten. Ich habe Midi-Files verwendet und anhand dieser das Training vollzogen und dann quasi die Noten schreiben oder berechnen lassen und nicht die Töne. Was beispielsweise die Dadabots machen geht einiges weiter: Sie reihen tausende von Hardrock- und Death-Metal-Audio Stücke aneinander und trainieren anhand dessen ihr Netzwerk und kommen dadurch auch auf ganz neue Töne. Bei ihnen sind also die Klangfarbe, Instrumente und so weiter enthalten. Bei mir war es ein abstrakter Ton, den ich berechnet habe.

Entweder lehrt man das Neuronale Netzwerk gleich von Beginn an, Musik zu spielen wie die Ramones, oder man lehrt es zuerst von Grund auf, Musik zu spielen – also alle Akkorde, etc. – und dann erst zu spielen wie die Ramones.

Sie sprechen unter anderem Magenta und die Dadabots an. Wo steht man heute im Bereich KI generierte Musik?
Erst kürzlich fand wieder der AI Song Contest statt, bei dem unter anderem auch die Dadabots mit von der Partie waren und man verschiedene Ansätze gesehen hat, was sich mit KI alles machen lässt. Grundsätzlich werden künstliche Intelligenz beziehungsweise entsprechende Tools vor allem unterstützend eingesetzt. Ich würde sogar eher von Augmented Intelligence als von Artificial Intelligence sprechen – also einem Zusammenspiel von Musikern und Technologie, mit welcher sie ihre kreativen Prozesse optimieren. Das ist für mich persönlich auch der vielversprechendste Ansatz, in welche Richtung es in Zukunft gehen soll.

Sie gehen also nicht davon aus, dass KI bald die Hitparade stürmt, sprich rein von Computern generierte Songs?
Es gibt solche Ansätze – beispielsweise für Computermusik oder zum Teil für Meditationsmusik, also repetitive Stücke. Von einem komplett computergenerierten Song mit allem was dazugehört sind wir meiner Einschätzung nach allerdings noch eine Weile entfernt, vielleicht ist es schon in 5 Jahren soweit, da möchte ich aber keine genaue Prognose wagen. Und eine Frage, die sich diesbezüglich sicherlich stellen wird, ist: Wollen wir das?

Gibt es auch Bereiche, in denen KI in Zukunft keine Chance gegen einen menschlichen Künstler haben wird?
Das denke ich nicht, nein. Ich glaube zwar, dass es schwierig sein wird, eine KI zu entwickeln, die gleichzeitig Kaffee machen, Autofahren und Musikstücke schreiben kann. Aber die auf einen Bereich spezialisierte künstliche Intelligenz wird in Zukunft noch sehr, sehr viel mehr können als heute – und ich glaube nicht, dass es irgendetwas gibt, was der Mensch kann, was eine KI nicht auch können wird.

Und die Kreativität?
Das betrifft auch die Kreativität. Auch diese lässt sich simulieren. Das war eine Erkenntnis von mir aus meinem „RaiMONES“-Projekt. Durch Zufallsgeneratoren wurden Soundfetzen generiert, aus denen danach etwas Neues entstanden ist. Ein gutes Beispiel ist auch das Programm AlphaGo Zero – das im Brettspiel Go Züge machen konnte, an die zuvor schlicht noch kein Mensch gedacht hat. Das gleiche erwarte ich auch bei der Musik, dass durch die technologischen Möglichkeiten etwas Neues entsteht, auf das die Menschen nicht selbst kommen würden.

Auch unsere Kreativität ist ja von äusseren Einflüssen geprägt. Bei der KI kann man sich diese quasi als Inputs durch Daten vorstellen?
Genau. Wenn KI mit unzähligen Daten trainiert wird, kann sie an Orte kommen, an die wir Menschen gar nie gelangen können. Wir können das jetzt wieder im Kontext der Musik betrachten: Wenn wir hier im Westen aufwachsen, werden wir geprägt von der westlichen Musik, in Indien von indischer Musik – klar gibt es auch da bereits gewisse Fusionen, aber dass etwas völlig Neues entsteht, ist eher schwierig. KI dagegen, die Musik in ihrer ganzen Breite und Tiefe quasi von Grund auf neu erlernt, ohne Präferenzen und Einschränkungen, hat da meiner Ansicht nach mehr Potenzial, etwas ganz Neues zu erfinden. Die Frage ist: Gefällt uns dies dann auch. Schliesslich sind auch unsere Ohren in einer gewissen Weise auf die Musik trainiert, die wir kennen.

Ich glaube nicht, dass es irgendetwas gibt, was der Mensch kann, was eine KI nicht auch können wird.

Gehen wir nochmals einen Schritt zurück: Wie konkret unterstützt KI die heutigen Musiker bereits?
Es gibt verschiedene Tools, die genutzt werden. Diese können beispielsweise Vorschläge für fehlende Zwischenstücke in Songs generieren, als Inspiration für Musiker dienen oder für einen von ihnen geschriebenen Song den Schlagzeugpart erzeugen. Sie sind wie gesagt eine Unterstützung. Daneben gibt es aber auch noch andere Tools. Alles was den Bereich Signalverarbeitung betrifft, geht in Richtung Machine Learning – beispielsweise “Source Separation” um einzelne Musiker aus einem Stereotrack zu separieren. Wenn man beispielsweise nur die Geige aus einem Track herausfiltern will oder den Gesang für Karaoke-Maschinen. Das wird heutzutage bereits alles mit Machine Learning gemacht beziehungsweise basiert auf trainierten Daten.

Geht es vor allem um das Schreiben von Musik oder auch die konkrete Umsetzung, also das Spielen der Songs?
Beides. Bei meinem Projekt hätte ich die Daten grundsätzlich einem Midi to Audio-Generator übergeben können. Aber die komplett computergenerierte Musik gibt es selbstverständlich, wie erwähnt die Dadabots generieren komplette Death-Metal-Songs so oder es gibt Services wie Endel, die so etwas anbieten. Dort kann man beispielsweise seine Stimmung angeben und darauf basierend wird ein passender Soundtrack vom Computer generiert. Diesen Einfluss von Musik auf Emotionen finde ich sehr interessant. Auch dort denke ich wird einiges passieren in Zukunft.

Inwiefern?
Wir merken selbst, dass Musik einen Einfluss auf unsere Emotionen hat. Ich höre andere Stücke, wenn ich mich konzentrieren will als wenn ich mich pushen will zum Beispiel beim Joggen. Aktuell entstehen Technologien, die sich damit auseinandersetzen. Es wird also beispielsweise über Gehirnwellen der Einfluss gewisser Musik auf uns gemessen. Das ist super spannend, denn dadurch lässt sich Musik so auf einen Menschen einstellen, dass er optimal gewisse Hirnzustände erreichen kann, zum Beispiel um sich bestmöglich zu konzentrieren. Die ETH Spin-Off “IDUN technologies” zum Beispiel arbeitet daran, mittels Kopfhörern den emotionalen Zustand des Benutzers herausfinden zu können.

Wir merken selbst, dass Musik einen Einfluss auf unsere Emotionen hat. (...) Aktuell entstehen Technologien, die sich damit auseinandersetzen. Es wird also beispielsweise über Gehirnwellen der Einfluss gewisser Musik auf uns gemessen.

Was läuft in der Schweiz in die Richtung KI & Musik? Gibt es eine KI-Musikszene oder interessante Unternehmen?
Konkret in der Schweiz im Startup Bereich läuft eher wenig. Es gibt Forscher an der Zürcher Hochschule der Künste (ZHdK), welche zu AI und Kreativitaet oder Musik forschen sowie einen Lehrstuhl an der EPFL. Aus der Musik-Szene finde ich Melody Chua sehr interessant; sie spielt quasi „Augmented Querflöte“. Im Bereich der Unternehmen gibt es ein spannendes Start-up mit Sitz in Zürich: Mictic. Was es macht, würde ich als „Augmented Reality Audio“ bezeichnen. Man trägt zwei Armbänder und durch die Bewegung der Arme kann man unterschiedlichste Sounds erzeugen. Ich bin überzeugt, dass sich Musik künftig in diese Richtung bewegen wird, wir sie also nicht nur konsumieren, sondern interaktiv mitgestalten können.

Es geht also unter anderem in die Richtung, dass auch Leuten, die wenig von Musik verstehen und keine Noten lesen können, die Möglichkeit gegeben wird, selbst etwas zu kreieren?
Ja. Kreativ zu sein. Mit dem Produkt von Mictic beispielsweise lässt sich erfahren, wie es ist, Cello zu spielen, ohne je eins in der Hand gehabt zu haben. Das finde ich einen sehr interessanten Aspekt: Technologie zu nutzen, um gewisse Dinge zu vereinfachen, aber auch die Kreativität zu fördern. Darum geht es. Die Menschen oder Musiker werden dadurch nicht ersetzt.

Also Aufatmen für die Musiker…
Nun, eine Analogie findet sich vielleicht in der Fotografie. Früher brauchte es noch viel mehr, um ein gutes Foto machen zu können - grosse Kameras, Chemikalien, etc. Heute reicht teilweise allein schon ein Handy dazu. Aber welche Handy-Fotos haben wirklich einen künstlerischen Wert? Ich denke, bei der Musik wird es in eine ähnliche Richtung gehen. Die Menschen werden befähigt, einfacher selbst Musik zu machen – aber werden sie damit an einen Elvis Presley herankommen? Ich denke es nicht.

Also einfacher, interaktiver und individuell angepasst wird die Musikwelt der Zukunft – und wie konkret sieht dann unser musikalischer Alltag aus?
Darauf bin ich auch gespannt! (lacht)

Zur Person

Matthias Frey ist seit frühsten Tagen fasziniert vom Mix aus Technologie und Musik. Kein Wunder wechselte er in jungen Jahren von der Geige zur elektronischen Bassgitarre, um an Effektgerät & Co. herumbasteln zu können. Er studierte Elektrotechnik an der ETH und doktorierte im Bereich Analogelektronik und Signalverarbeitung. Beruflich ist Frey für einen Elektronikkonzern in den Bereichen Signalverarbeitung, KI und Hardware für KI engagiert und beschäftigt sich persönlich intensiv mit den aktuellen Entwicklungen in Sachen Musik & Technologie.

MUSIK FÜR DEINE OHREN ... UND LESENSWERTES FÜRS HERZ:

In conversation with
In conversation with Jolanda Spiess Hegglin
AI Analytics

... Jolanda Spiess-Hegglin
Boss Mode
Boss Mode Ana Campos
AI Analytics

AI & Kant
In conversation with
In conversation with Gerhard Fatzer
Psychologie Leadership

... Gerhard Fatzer