Googles neue KI verwandelt Text in Musik

Die Beispiele, die das Unternehmen genannt hat, sind Musik in meinen Ohren.

Google-Forscher haben eine KI entwickelt, die aus Textaufforderungen minutenlange Musikstücke erzeugen und sogar eine gepfiffene oder gesummte Melodie in andere Instrumente umwandeln kann, ähnlich wie Systeme wie DALL-E Bilder aus schriftlichen Aufforderungen erzeugen (via TechCrunch). Das Modell heißt MusicLM, und obwohl man es nicht selbst ausprobieren kann, hat das Unternehmen eine Reihe von Beispielen hochgeladen, die es mit diesem Modell produziert hat.

Die Beispiele sind beeindruckend. Es gibt 30-Sekunden-Schnipsel, die sich wie echte Songs anhören und auf der Grundlage von absatzlangen Beschreibungen erstellt wurden, die ein Genre, eine Stimmung und sogar bestimmte Instrumente vorgeben, sowie fünfminütige Stücke, die auf der Grundlage von ein oder zwei Wörtern wie „melodischer Techno“ erstellt wurden. Mein Favorit ist vielleicht eine Demo des „Story-Modus“, bei dem das Modell im Grunde ein Skript erhält, das es zwischen den Aufforderungen umwandeln muss. Zum Beispiel, diese Aufforderung:

  • elektronisches Lied in einem Videospiel (0:00-0:15)
  • Meditationslied, gespielt an einem Fluss (0:15-0:30)
  • Feuer (0:30-0:45)
  • Feuerwerk (0:45-0:60)

Das Ergebnis ist das Audio, das Sie sich hier anhören können.

Es ist vielleicht nicht jedermanns Sache, aber ich könnte mir durchaus vorstellen, dass ein Mensch dieses Stück komponiert (ich habe es mir auch Dutzende Male in einer Schleife angehört, während ich diesen Artikel schrieb). Auf der Demoseite finden sich auch Beispiele dafür, was das Modell produziert, wenn man es bittet, 10-Sekunden-Clips von Instrumenten wie dem Cello oder den Maracas zu erzeugen (das letztere Beispiel ist eines, bei dem das System relativ schlechte Arbeit leistet), 8-Sekunden-Clips eines bestimmten Genres, Musik, die zu einem Gefängnisausbruch passen würde, und sogar, wie ein Anfänger am Klavier im Vergleich zu einem fortgeschrittenen Spieler klingen würde. Es enthält auch Interpretationen von Begriffen wie „futuristischer Club“ und „Akkordeon-Death-Metal“.

MusicLM kann sogar menschliche Stimmen simulieren, und obwohl es den Anschein hat, dass es den Ton und den Gesamtklang von Stimmen richtig hinbekommt, gibt es eine Qualität, die definitiv nicht stimmt. Am besten kann ich das so beschreiben, dass sie körnig oder unruhig klingen. Diese Qualität ist im obigen Beispiel nicht so deutlich, aber ich denke, dieses Beispiel illustriert sie ziemlich gut.

Das ist übrigens das Ergebnis, wenn man das Programm bittet, Musik zu machen, die in einem Fitnessstudio gespielt werden kann. Vielleicht ist Ihnen auch aufgefallen, dass der Text Unsinn ist, aber auf eine Art und Weise, die Sie vielleicht nicht unbedingt verstehen, wenn Sie nicht aufpassen – so als würden Sie jemandem zuhören, der in Simlish singt, oder diesem einen Lied, das wie Englisch klingen soll, es aber nicht ist.

Ich will nicht so tun, als wüsste ich, wie Google diese Ergebnisse erzielt hat, aber es hat eine Forschungsarbeit veröffentlicht, in der es im Detail erklärt wird, falls Sie zu den Menschen gehören, die diese Zahl verstehen können:

Eine Abbildung, die die „hierarchische Sequenz-zu-Sequenz-Modellierungsaufgabe“ erklärt, die die Forscher zusammen mit AudioLM, einem anderen Google-Projekt, verwenden.

KI-generierte Musik hat eine lange Geschichte, die Jahrzehnte zurückreicht; es gibt Systeme, denen man nachsagt, dass sie Popsongs komponieren, in den 90er Jahren Bach besser kopiert haben als ein Mensch es könnte und Live-Auftritte begleitet haben. Eine neuere Version verwendet die KI-Bilderzeugungsmaschine StableDiffusion, um Textanweisungen in Spektrogramme zu verwandeln, die dann in Musik umgewandelt werden. In dem Papier heißt es, dass MusicLM andere Systeme in Bezug auf die „Qualität und die Einhaltung der Beschriftung“ sowie die Tatsache, dass es Audio aufnehmen und die Melodie kopieren kann, übertreffen kann.

Dieser letzte Teil ist vielleicht eine der coolsten Demos, die die Forscher veröffentlicht haben. Auf der Website können Sie den Eingangston abspielen, bei dem jemand eine Melodie summt oder pfeift, und dann hören, wie das Modell diese Melodie als elektronischen Synthesizer-Lead, Streichquartett, Gitarrensolo usw. wiedergibt. Nach den Beispielen zu urteilen, die ich mir angehört habe, löst es diese Aufgabe sehr gut.

Wie bei anderen Vorstößen in diese Art von KI ist Google auch bei MusicLM deutlich vorsichtiger als einige seiner Konkurrenten mit ähnlicher Technologie. „Wir haben nicht vor, zu diesem Zeitpunkt Modelle freizugeben“, heißt es in dem Papier, und zwar unter Berufung auf das Risiko einer „potenziellen widerrechtlichen Aneignung kreativer Inhalte“ (sprich: Plagiat) und einer potenziellen kulturellen Aneignung oder Fehldarstellung.

Es ist immer möglich, dass die Technologie irgendwann in einem der lustigen Musikexperimente von Google auftaucht, aber im Moment können nur andere Personen, die musikalische KI-Systeme entwickeln, von der Forschung profitieren. Google sagt, dass es einen Datensatz mit etwa 5.500 Musik-Text-Paaren veröffentlicht, der beim Training und der Bewertung anderer musikalischer KI-Systeme helfen könnte.

 

Telekorn