You can’t call me AI

Waar vorig jaar nog ‘Metaverse’ hét buzzwoord was in de muziekindustrie, lijkt alles nu in het teken te staan van ‘Artificial Intelligence’ ofte ‘AI’. Enkele recente ontwikkelingen geven aan dat deze technologie stilaan toegankelijk wordt voor een breed publiek, en ook de markt lijkt er helemaal klaar voor. Biedt deze technologie net zoveel mogelijkheden als de hype belooft, of vormt ze de reële bedreiging voor artiesten die velen erin zien? VI.BE ging op onderzoek, en sprak hiervoor met Erwin Blom (Fast Moving Targets, ondernemer en muzikant), Arne Van Petegem (PXL Music, docent-coördinator en muzikant) en Sebastiaan Van den Branden (In The Pocket, data scientist en muzikant).

dimitri vossen

29.06.23

Features

Longread

Is kunstmatige intelligentie de toekomst van de muziekindustrie? Het is een vraag die meteen al verschillende verbeteringen nodig heeft, om dan zichzelf te beantwoorden.

Verbetering één: niet alleen voor de muziekindustrie is AI de toekomst, maar voor heel de wereld. Mocht je zelf nog geen ChatGPT gebruikt hebben om ideeën te formuleren, van scripties tot persberichten, dan werd je vast al online door een chatbot te woord gestaan. AI wordt ingezet om fraude tegen te gaan in het bankwezen, om kanker en dementie te bestrijden, om overheden bij te staan in complexe maatschappelijke dossiers, ... Zowat elke sector is getuige van een evolutie waar menselijke taken veel efficiënter en sneller worden uitgevoerd door een AI. En dat zijn nog maar de toepassingen die we zelf kunnen bedenken.

Verbetering twee: AI is eigenlijk ook al het heden, ook in de muziekindustrie. De afgelopen maanden werden enkele zeer mediagenieke toepassingen opzichtig naar voren geschoven in de pers. Maar eigenlijk is AI al langer alomtegenwoordig in toepassingen die door artiesten worden gebruikt.

Denk maar aan de populaire plugins van iZotope, waar al jaren AI wordt toegepast, van mastering (Ozone) tot het opkuisen van audio (RX). Of de algoritmische reverb ‘Crystalline’ van Baby Audio, de ‘slimme’ amp- en pedaalmodellen van GuitarML, de vele algoritmische drumsequencers en synthesizers die al volledig zijn ingeburgerd… zonder het misschien te weten, gebruik je vast zélf al AI in je muziekproductie.

Intelligent?

Mogelijke verbetering drie: kunnen we de tools die grote volumes data (van tekst tot al dan niet bewegend beeld, tot audio) kunnen analyseren en interpreteren eigenlijk wel ‘intelligent’ noemen? Bij het opduiken van de term in de prille informatietechnologie van de jaren 50 was het doel nog om computers te ontwikkelen die de menselijke intelligentie konden benaderen. Het kan lijken alsof we dat punt stilaan naderen, nu de output van deze systemen soms zo complex en creatief is dat het lijkt alsof ze op dat moment werd bedacht in plaats voortvloeit uit een diepgaande analyse van bestaande data.

Invloedrijke wetenschappers als Jarod Lanier en Michael I. Jordan waarschuwen voor de term ‘AI’, omdat die nog steeds de indruk wekt van een autonoom denkend wezen dat door mensen werd gecreëerd. Jordan spreekt liever van ‘machinaal leren’ (‘machine learning’), en beschouwt dergelijke systemen niet als intelligent an sich, maar als een manier om de menselijke intelligentie te ondersteunen en te versterken. Jarod Lanier waarschuwt zelfs dat een verkeerd begrip van de technologie die een term als ‘AI’ in de hand werkt een optimaal gebruik ervan in de weg staat:
“De mythologisering van de technologie maakt het alleen maar waarschijnlijker dat we er niet in zullen slagen om ze goed te gebruiken. We beperken onze verbeelding door ze vast te pinnen op de dromen van weleer.”

De mythologisering van de technologie maakt het alleen maar waarschijnlijker dat we er niet in zullen slagen om ze goed te gebruiken. We beperken onze verbeelding door ze vast te pinnen op de dromen van weleer.

jarod lanier

Geen vijfde Beatle

Het valt te begrijpen dat het ‘romantische’ idee van AI in 2023 weer terug op de voorgrond komt in de muziekindustrie. De laatste maanden lijkt er maar geen einde te komen aan de berichten die in een paar woorden samengevat telkens hetzelfde verhaal lijken te vertellen: AI kan nu muziek maken op het niveau van de grootste sterren uit heden en verleden. Soms nog vergezeld van een quote van zo’n ster (denk op het niveau van David Guetta of Paul McCartney) die AI steevast uitroept tot dé toekomst, punt. Geen wonder dat vaak niet verder wordt gelezen dan de ronkende titel, en in het slechtste geval staat het bijhorende artikel ook nog bol van de halve waarheden waaruit blijkt dat de media zélf ook maar weinig grip heeft op de precieze aard van de technologie.

Neem het verhaal van de ‘laatste Beatles song’ die nu door AI zou worden gemaakt. Die korte versie wekt de indruk dat er door een computer aan het nummer zou worden geschreven. In feite gaat het om een John Lennon demo uit 1980 van zeer lage kwaliteit. De opname werd door Lennon’s weduwe Yoko Ono aan Paul McCartney bezorgd, en bevat een ruwe versie van het nummer ‘Now and Then’ dat McCartney sindsdien verschillende keren probeerde af te werken. De AI-technologie die nu wordt ingezet werd ontwikkeld voor de geluidsmix van Peter Jackson’s documentaire ‘Get Back’. Om de dialogen helder verstaanbaar te krijgen, werd aan computers via datasets aangeleerd om de stemmen van alle Beatles te herkennen en te scheiden van de muziek en instrumenten. Vorig jaar werd deze technologie ook ingezet om een nieuwe mix te maken van de Beatlesplaat Revolver. Nu zou ze worden gebruikt om John’s stem op de demotrack te isoleren en op te poetsen. Nog steeds zeer indrukwekkend, maar zeker minder ophefmakend dan de gedachte dat er nu een vijfde AI Beatle zou opstaan.

AI composities

Experimenten met AI die zelf melodieën en arrangementen schrijft, zijn zeker niet nieuw. Lange tijd werd hiervoor gewerkt met MIDI-bestanden, het rudimentaire formaat dat lange tijd dé standaard was bij het voeden van muzikale informatie (noten, ritme en expressie) aan digitale machines. Op die manier konden vroegere AI-modellen patronen voor melodie en arrangement halen uit relatief eenvoudige data. De doorbraak kwam er met ‘Jukebox’, een model van het AI-bedrijf OpenAI (de ontwikkelaar achter ChatGPT) dat kon gevoed worden met audiofiles, alsook teksten en metadata. Een stuk nauwkeuriger, maar voorlopig nog niet laagdrempelig toegankelijk voor het publiek. Zelfs als je met de code aan de slag kan, vraagt de software nog heel wat processorvermogen en tijd (tel maar 9 uur rendertijd voor één minuut audio).

Heel wat gebruiksvriendelijke applicaties die als ‘AI’ worden verkocht (zoals Amper of AIVA), zijn in feite zeer beperkte muziekgeneratoren die zeer generieke composities afleveren op basis van enkele parameters waarmee de gebruiker kan spelen (genre, sfeer, instrumentatie...). Deze tools mogen dan wel getraind zijn met uitgebreide datasets overheen alle genres van het muzikale spectrum, in de praktijk leveren ze eerder ‘muzikaal behang’ op zoals dat enkel door de meest ongeïnspireerde broodschrijvers kan bedacht worden. En toch is het vooral deze toepassing die muzikanten, en met hen de verzamelde muziekindustrie, de meeste zorgen baart, want hier gaat het over werkgelegenheid.

Arne Van Petegem: “Het hangt er natuurlijk van af met welke doelmatigheid je met muziek bezig bent. Je hebt nu al een hele industrie van freelance componisten die eigenlijk al grotendeels op een algoritmische manier te werk gaan. Dat werkt volgens een systeem van schrijfsessies waar je met een heel team ideeën levert op basis van een inhoudelijke briefing van een productiebureau, waar dan uiteindelijk de meest bruikbare van worden geselecteerd. Ik kan me voorstellen dat het daar al snel efficiënter zal worden om een AI zodanig te programmeren dat die snel een reeks muzikale ideeën produceert. Ook voor het componeren voor commercials of achtergrondmuziek gaat dat zeker de geijkte manier van werken worden. Maar dat is uiteraard een heel ander gegeven dan wanneer een artiest creatief aan de slag wil met muziek en in dialoog gaat met een AI en met die technologische mogelijkheden gaat experimenteren.”

Erwin Blom: “Je hoort dan Nick Cave zeggen dat een AI nooit een tekst zal kunnen schrijven zoals hij dat doet, dat hoop ik ook voor hem (lacht). Maar ik ben daar nog niet zo van overtuigd, we zitten nog maar in het begin van die ontwikkeling. En zeker als je dan bedenkt: voor een computer is muziek eigenlijk een heel eenvoudig gegeven. Zoveel mogelijke combinaties in ritme en melodie zijn er ook weer niet. Als artiest moet je natuurlijk ‘iets’ hebben dat je onderscheidt. Ik heb op dit moment nog geen muziek gehoord die door een computer gemaakt is waarvan ik dacht “dit heeft die X-factor”. Maar ik durf niet meer te zeggen dat het niet kan gebeuren. En de vraag is: is dat dan erg? Vanuit het standpunt van een muzikant die het ziet als een bedreiging voor zijn vak zeker wél, maar voor het publiek? Als ze de muziek goed vinden, gaat het hen niet uitmaken of dat door een mens of door een computer werd gemaakt. En laten we wel wezen: je brood verdienen met je eigen muziek, dat is altijd de uitzondering geweest. Daar gaat AI weinig of niets aan veranderen.”

Je brood verdienen met je eigen muziek, dat is altijd de uitzondering geweest. Daar gaat AI weinig of niets aan veranderen.

erwin blom

De virtuele platenbak

Ondertussen is er alweer een volgende stap bereikt in de modellen voor muzikale creatie. Google’s MusicLM werd zopas (mei 2023) opengesteld voor het publiek, waarbij een vrij geavanceerde compositie kan ontstaan uit een beeldende tekstbeschrijving zoals de volgende: “The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.”

De resulterende fragmenten zijn voorlopig nog maar een halve minuut lang, maar klinken behoorlijk overtuigend voor een technologie die nog in de kinderschoenen staat. Meta (het bedrijf achter Facebook) is ondertussen al op dezelfde kar gesprongen met een model genaamd MusicGen.

Net voordien (december 2022) werd het model ‘Riffusion’ gelanceerd, dat een extra stap toevoegde aan het tekst-naar-beeld AI-model ‘Stable Diffusion’. Kort door de bocht: de beelden die uit een tekstbeschrijving ontstaan worden omgezet naar audiofiles. Het model was lang niet zo nauwkeurig als Google’s technologie, maar de Britse muzikant en beeldend artiest Patten (die al eerder samenwerkte met onder meer Björk, Giorgio Moroder en Caribou) raakte gefascineerd door de mogelijkheden van deze tool. Nachtenlang voerde hij tekstlijnen in, om vervolgens de resultaten te doorkammen naar opvallende geluiden. Hij vergelijkt dit proces zelf met een beatproducer als DJ Shadow die in bestofte platenbakken op zoek gaat naar samples - maar dan in het digitale veld van geluiden die door de AI worden gecreëerd (in zijn eigen woorden: ‘crate-digging in latent space’). Vervolgens knipte en monteerde hij dit ruwe materiaal tot 21 tracks op de collageplaat ‘MirageFM’.

EminAIm

Een toepassing van AI die de afgelopen maanden nog het meeste stof deed opwaaien in de muziekindustrie is het gebruik van ‘deepfakes’ om de stem van bekende artiesten na te bootsen. David Guetta stak het vuur aan de lont toen hij voor de gein de stem van Eminem liet nabootsen in de applicatie uberduck.ai, die hij een vers liet rappen geschreven door ChatGPT. Hij gebruikte slechts anderhalve regel als sample in een nieuwe track, maar de Youtube video van de trackpremière tijdens zijn dj-set deed de online muziekmedia in een hyperbolische kramp schieten, met headlines als “David Guetta revolutionizes music with AI” en “David Guetta Just Opened Pandora’s Box”. De onbekende uploader van een deepfake song waarin Eminem zijn liefde voor katten beleed, had minder geluk - zijn noeste arbeid werd al gauw met een copyright strike door Universal offline gehaald.

Eind april ging een song genaamd ‘Heart on My Sleeve’ viraal op TikTok, en dat was niet vanwege de zeer middelmatige compositie (de ‘Metro Boomin’ producer audio tag kon niemand overtuigen). Het nummer van de vooralsnog onbekende uploader @ghostwriter977 was ook voorzien van met AI gecreëerde stemklonen van Drake en The Weeknd, en werd in geen tijd een streaming hit, voor het nummer even snel weer door Universal Music uit de digitale ether werd getrokken. Het hele verhaal vertoont nogal wat vreemde kronkels die kunnen wijzen op een gewiekste marketingstunt. Niettemin heeft het nummer een breed gedragen discussie op gang gebracht over de ethische en legale implicaties van producties met AI stemklonen van bestaande (en bekende) artiesten.

Ten oorlog

Ook deze discussie is overigens al voorheen opgedoken. In 2020 liet Jay-Z een deepfake video van YouTube halen waar een kloon van zijn stem werd gebruikt om Shakespeare en de tekst van Billy Joel’s ‘We Didn’t Start the Fire’ voor te dragen. Ze werden gemaakt met Google’s tekst-naar-spraak AI Tacotron 2, en destijds was het een stuk makkelijker om de spreekstem van een rapper te klonen, dan een zangvocaal. Om die reden is overigens de kloon van Drake’s vrij vlakke stemgeluid in ‘Heart on my Sleeve’ een stuk geloofwaardiger dan die van The Weeknd. Andere pogingen om bekende zangers na te bootsen tonen vooral aan dat de technologie nog in zijn kinderschoenen staat: de experimenten van YouTube-gebruiker FaustoX om Kurt Cobain terug tot leven te wekken, of de ‘nieuwe’ Oasis plaat door indieband Breezer met vocals van een AI Liam Gallagher zorgen voor veel ontzetting bij de respectievelijke fans, maar zijn nog even verwijderd van een geloofwaardige kopie.

Dat hoeft echter niet meer lang te duren. De software die voor ‘’Heart on my Sleeve’ werd gebruikt heet ‘SoftVC VITS Singing Voice Conversion’, en wordt bij elke update makkelijker om te gebruiken. Bovendien doet de wereldwijde open source-gemeenschap ook zijn werk: er zijn nu al tools die een deel van de kloonprocedure automatiseren en kant-en-klare datasets gebruiken van bekende artiesten: van Bad Bunny en Taylor Swift, tot James Hetfield en Phil Anselmo. Niet verwonderlijk dus dat de industrie zeer onrustig wordt door deze ontwikkelingen en preventief actie onderneemt. Net zoals het eerder al het geval was bij sampling en filesharing, wordt ook deze technologische omwenteling in eerste instantie te lijf gegaan met oorlogstaal. Universal Music heeft de streamingdiensten Spotify en Apple verzocht om geen muziek uit hun catalogus te delen met AI bedrijven die ze gebruiken als input voor hun modellen. Een nieuwe actiegroep onder de naam ‘Human Artistry Campaign’ verzamelt meer dan 40 leidinggevende organisaties uit de creatieve sector (muziek, maar ook literatuur en beeld) rond een manifest met 7 kernprincipes rond het gebruik van creatief werk door AI-toepassingen. Wie tussen de regels van het manifest leest, merkt vooral dat er aan de overheid wordt gevraagd om niet te raken aan de huidige regels rond copyright.

Namaak

Dat is makkelijker gezegd dan gedaan. De nieuwe toepassingen brengen immers veel nieuwe en tot voor kort ondenkbare situaties met zich mee. IP-expert Louis Tompros van Harvard University ziet verschillende vragen ontstaan die de huidige wetgeving niet of maar ten dele kan beantwoorden. Wie beschikt over het auteursrecht op materiaal dat geheel of gedeeltelijk met behulp van AI werd vervaardigd? Traditioneel is de term ‘auteur’ strikt voorbehouden voor een menselijk wezen, maar daar zou wel eens verandering in kunnen komen. En is het ‘trainen’ van een AI-model met behulp van beschermd materiaal (zij het tekst, beeld of audio) ook al een inbreuk op het auteursrecht? Wanneer vervolgens een nieuw werk ontstaat, wordt dat dan beschouwd als origineel, of een afgeleide?

Al deze vragen ontglippen het domein van auteursrecht en sijpelen door op andere terreinen, zoals identiteitsfraude en imitatie. In het verleden hebben artiesten als Bette Midler en Tom Waits met succes beroep aangetekend tegen bedrijven die hun stem door een andere artiest lieten imiteren om commercials in te zingen, en AI zal dit soort praktijken zeker in de hand werken. Het Europees Parlement heeft met een ruime meerderheid de Artificial Intelligence Act goedgekeurd. Die moet AI-technologie reguleren en zo zorgen voor meer veilige en transparante kunstmatige intelligentie in Europa. De EU is wereldwijd de eerste die regels maakt over AI.

In Europa is de zoektocht naar een wettelijk kader vooral toegespitst op het beperken van de risico’s, zoals werd gesteld door Europarlementslid Tom Vandenkendelaere (CD&V) in het radioprogramma ‘De Ochtend’: “De bedoeling is om een balans te vinden tussen een duidelijk kader waarbinnen ontwikkelaars van AI-toepassingen kunnen werken, maar tegelijk ook een soort van AI te ontwikkelen die de burger beschermt. (...) Met de wet willen we AI-toepassingen opdelen in een aantal categorieën met daaraan verbonden een bepaald risico. Wanneer de risico’s van een toepassing groter zijn, worden ook de verplichtingen voor de fabrikant groter".

Wanneer de risico’s van een toepassing groter zijn, worden ook de verplichtingen voor de fabrikant groter.

Europarlementslid Tom Vandenkendelaere (CD&V)

Probleem: auteursrecht wordt in elke regio ter wereld anders behandeld, en dat zorgt momenteel al voor veel verwarring en ondoorzichtigheid. In feite is er slechts één zekerheid: voor de contentindustrie wachten andermaal woelige tijden.

Omarmen?

Voor artiesten lijkt het dus nog de beste zaak om de technologie te omarmen en de creatieve mogelijkheden ervan aan te wenden in hun voordeel. De Amerikaanse artiest Grimes heeft dat alvast goed bekeken. Terwijl haar ex-vriend Elon Musk doemscenario’s orakelt over de gevaren van AI, lanceerde zij het platform ‘Elf Tech’ waarmee gebruikers vlot en makkelijk hun eigen stemopnames kunnen transformeren naar het stemgeluid van Grimes zelf. Fans mogen de eigen creaties ook gewoon publiek delen, met als enige voorwaarde dat Grimes deelt in de auteursrechten en commerciële opbrengst. Dat wordt verpakt als een altruïstische geste van de zangeres om haar naamsbekendheid te gebruiken voor het verspreiden en stimuleren van creativiteit. Maar laten we wel wezen: het is vooral ook een commercieel slimme zet, want enkele weken later is het internet al overspoeld met Grimes-kloon producties.

Het is maar de vraag hoe duurzaam de huidige trend van soundalikes zal zijn, eens de nieuwigheid is gaan liggen. Kan het dupliceren van artiesten echt een markt tot stand brengen waar de bekendheid van de stem voldoende is om een track of een product te verkopen? De geschiedenis leert dat de democratisering van dergelijke technologie ook een gewenning met zich meebrengt. Denk maar aan de golf van mash-ups die aan het begin van deze eeuw de wereld overspoelde. Enkele artiesten konden er een carrière op bouwen, maar twintig jaar later is het principe vooral zo wijdverspreid dat het een vanzelfsprekendheid is geworden. In het gebruik van deepfaked stemmen schuilen heel wat maatschappelijke gevaren (met desinformatie op nummer één), maar een creatief bankroet hoort daar waarschijnlijk niet bij.

Laat dat nog een zekerheid én een geruststelling zijn: ook deze technologie kan benaderd worden als een kans om creatief te zijn. Natuurlijk is er het gevaar dat de (verdere) democratisering van het makersproces enkel nog een overaanbod van eenheidsworst in de hand werkt. En moeten we waakzaam zijn dat de machines niet enkel gevoed worden door Westerse muziek, wat een eenzijdig wereldbeeld enkel maar zou versterken. Maar zoals altijd is het aan de artiest zélf om de tools in handen te nemen, en er dan toch weer een eigen draai aan te geven. Het multimediale kunstenaarskoppel Holly Herndon en Matthew Dryhurst werkt al jaren rond AI. Voor Herndon’s album ‘Proto’ (2019) ontwikkelden ze de ‘zingende AI’ Spawn, die werd getraind met samples van haar eigen stem en zangstonden met andere vocalisten. Dit project kent nu een vervolg in ‘Holly+’ waar ook het publiek aan de slag kan met een kloon van Herndon’s stem.

Wederzijdse instemming (‘consent’) is voor het duo heel belangrijk. Zopas lanceerden ze de website ‘Have I Been Trained’, waar content creators kunnen opzoeken of hun werk werd gebruikt om AI te trainen. Indien dat het geval is, krijgen ze de mogelijkheid om aan de AI-bedrijven hiervoor hun toestemming te geven (‘Opt-in’) - of niet (‘Opt-out’). Voor Herndon en Dryhurst is het in deze fase cruciaal om zo een wederzijds vertrouwen op te bouwen tussen artiesten en de ontwikkelaars van deze nieuwe technologie. Of beter gezegd: met de technologie zélf.

Want uiteindelijk draait het toch om een samengaan van mens en machine. Dat hoeft langs geen van beide kanten een meester-slaaf verhouding te worden.

Sebastiaan Van Den Branden: “Ik vergelijk deze evolutie met de komst van de synthesizer in de jaren 70. Ook een toestel dat in eerste instantie het geluid van bestaande instrumenten moest nabootsen. Maar al gauw gingen muzikanten de mogelijkheden van die technologie verkennen op een manier die niét voorzien was. En zo zijn er heel nieuwe geluiden en stijlen gevormd.”

“Algoritmes zijn in staat om weliswaar gigantische hoeveelheden muzikale data te halen uit het verzameld werk van Bach, maar ze weten niet hoe die mens eruit zag, hoe de tijd was waarin hij leefde, wat voor architectuur of schilderkunst ze hadden. Dat zijn nochtans allemaal dingen die voor ons wel de muzikale beleving van die muziek mee voeden. Dat menselijke aspect zie ik nog een hele tijd niet uit een machine komen. Wat een AI op dit moment kan produceren wanneer je gewoon op de knop drukt, is al heel indrukwekkend. Maar uiteindelijk geloof ik nog altijd het meest in een samenwerking tussen mens en algoritme. Dan ontstaan er pas écht nieuwe dingen.”

Uiteindelijk geloof ik nog altijd het meest in een samenwerking tussen mens en algoritme. Dan ontstaan er pas écht nieuwe dingen

sebastiaan van den branden

Reclame