Makkelijk audio maken, van muziek tot omgevingsgeluid, zonder zorgen over juridische beslommeringen. Dat is de belofte van Meta’s nieuwe open source generatieve AI, Audiocraft.
Mediamakers vinden in Audiocraft een nieuw hulpmiddel waarmee ze via een tekstopdracht rechtenvrij geluid kunnen maken. Dat kunnen ze vervolgens gebruiken hoe ze maar willen, een videoclip, socialposting of als levend behang van een computerspel.
Generatieve kunstmatige intelligentie staat sinds afgelopen jaar sterk in de belangstelling van programmeurs, mediamakers, R&D-afdelingen en ondernemers. Met digitale gereedschappen van bedrijven als OpenAI, Stability AI, Google, Midjourney en Meta gaat een hele nieuwe wereld voor hen open. AI-modellen nemen digitaal monnikenwerk van hun over bij de productie van tekst, fotografie, computercode en film. Audio niet echt, maar daar brengt Meta verandering in.
Het publiceerde reeds AI-modellen voor muziek en stemmen en voegt daar nu een wat generiekere hifi geluidsmaker aan toe. Audiocraft maakt muziek en geluiden maar geen stemmen.
Audiocraft is onder een open source-licentie gepubliceerd op Github.
Meta licht toe: “We erkennen dat de datasets waarmee we onze modellen trainden beperkt zijn in hun diversiteit. De dataset die we voor muziek gebruikten, bijvoorbeeld, is sterk georiënteerd op westerse muziek en kent alleen metadata uit de Engelse taal. We delen de broncode in de hoop dat onderzoekers nieuwe benaderingen kunnen uitproberen om dit soort beperkingen te limiteren of zelfs uit te sluiten.”
Meta’s nieuwe geluidsmodel werkt op basis van diffusion niet met transformers.
Foto: Vancouver Film School (cc)