Generative AI in de praktijk: de echte waarde schuilt in een slimme workflow van verschillende tools

Met het vrijgeven van ChatGPT eind vorig jaar was Generative AI ineens overal. Interessant, maar vooral nog spielerei. Met Nederlandse kenners bogen we ons over verschillende use cases en de toekomstverwachtingen. ‘De truc is om te weten hoe je verschillende tools aan elkaar knoopt.’
Misschien gaat november 2022 wel de geschiedenisboeken in als ‘de dag dat AI gemeengoed werd’. Die maand zag ChatGPT het levenslicht en werd het grote publiek wakker voor de mogelijkheden van AI.
In één keer was er die machine die alles kon met lettertjes. Stel een vraag en de machine met die exotische letterige naam weet het antwoord. En nog goed ook. Want laten we eerlijk zijn, het ís ook een soort kruising tussen Google en een Zwitsers zakmes.
Maar dit is zeker niet de eerste AI die onze levens binnendringt. Denk bijvoorbeeld aan Google Translate, die duizenden taalcombinaties vloeiend snapt en spreekt. Of denk aan AlphaZero, AlphaGo, AlphaFold of Wavenet. Allemaal uitermate slimme machines die vloeiend schaken, Go spelen, animo’s brouwen of stemmen genereren. Allemaal enorm indrukwekkend werk van DeepMind uit Engeland, een dochterbedrijf van Google.
In januari 2021 kwam het text to image-model DALL-E al uit, uit de stal van het Amerikaanse onderzoekslab OpenAI. Ook toen hadden de alarmbellen al kunnen rinkelen bij het grote publiek. Toch was er kenenlijk een systeem nodig dat dichterbij onze werkelijkheid kwam. Een machine die terstond als een soort tovenaar álle antwoorden geeft. Op zich is het taalmodel onder ChatGPT niet eens uniek. Er zijn zat concurrenten, waaronder Bloom, Replika, Jasper.ai en Lamda. En dat is nog maar een kleine greep.
De term kunstmatige intelligentie doet vermoeden dat we hier te maken hebben met een slimme, denkende computer. Maar daar is geen sprake van. AI’s zijn niet zelfbewust, hebben geen geheugen en hebben geen begrijpertje. Vraag aan ChatGPT: ‘Wanneer kruiste Egypte voor de tweede keer de Golden Gate Bridge?’ en de machine zal proberen een keurig antwoord te geven. Oktober 2016. Of: ‘Wat eten gebakken eieren, hele dooier, als ontbijt?’. Zelfde verhaal. Toast en fruit.
ChatGPT en alle andere AI-modellen zijn wat de naam zegt: wiskundige modellen die zijn getraind op enorme corporra om zo nauwkeurig mogelijk een opdracht uit te voeren. De modellen antwoorden op basis van wat wij er in stopten. Dat zijn niet per definitie waarheden. Modellen werken met correlaties, niet met gezond verstand. Daarom hoor je ook regelmatig de oproep om de algoritmes, de radertjes in de machine, open source te maken. Alleen dan kun je zien wat de oorzaak van eventuele fouten is. Gebeurt dat niet, dan blijven het altijd geheimzinnige zwarte dozen.
Zelfs de CEO van DeepMind, nota bene hij, waarschuwt tegen te opportunistisch gebruik van kunstmatige intelligentie. In een zeldzaam interview met tijdschrift Time stelt hij dat er voorzichtig en behoedzaam moet worden omgegaan met AI. Uit onoplettendheid of onbedachtzaamheid kunnen de grootste ongelukken komen. De consequenties kunnen immens zijn. Modellen die niet open source zijn, zijn oncontroleerbaar en daarmee onvoorspelbaar.
In Nederland ging daarom in januari 2023 een toezichthouder van start voor algoritmes. Dat gebeurt onder de vlag van de Autoriteit Persoonsgegevens (AP). De AP mag desgewenst iedereen altijd vragen om de broncode van zijn algoritmes met haar te delen. Het bestaande toezicht op algoritmes en artificiële intelligentie blijft intact. Dit ligt bij verschillende colleges, markttoezichthouders en rijksinspecties. Omdat algoritmes in alle sectoren te vinden zijn, wordt er echter ook vanuit een overkoepelende instantie in de gaten gehouden wat de generieke en specifieke risico’s en effecten zijn van algoritmes.
Op het internationale toneel woedt ook de discussie over copyright. AI’s die tekst en beeld ‘snappen’ zijn getraind op het intellectuele eigendom van miljoenen schrijvers, fotografen, videomakers en andere amateur en professionele makers. Maakt het werk dat een AI genereert daarmee automatisch inbreuk op copyright of heeft het enkel leren denken zoals een mens dat doet? Dat is voer voor rechters. Fotobank Getty Images zet de toon en klaagt daarom de maker van Stable Diffusion aan wegens misbruik van diens auteursrechten. Het beklaagde AI-model gebruikte foto’s van Getty om te leren welke zaken op foto’s staan en kon daardoor op verzoek nieuwe afbeeldingen creëren.
Maar wat heb je er aan? Dat is toch de vraag die door ieders hoofd gonst als je de vele demo’s van ChatGPT ziet. Nou, veel dus. Als je er maar bereid bent te zoeken en te experimenteren.
Use case 1: Contentmarketing/SEO
Jaap Jacobs van growthmarketingbureau Fingerspitz zet dit soort tooling al wat langer in. Zij gebruiken Jasper.ai om content te genereren. Alle marketeers en copywriters die zeggen dat dit geen bedreiging is, hebben het volgens Jacobs mis. Hij ziet het echter als kans. “Tien jaar geleden had niemand gedacht dat we hier nu zouden zijn. Ik denk dat de techniek ons gaat inhalen. Je hebt weinig andere keuze dan de technologie te omarmen. Het werk wordt het voor negentig procent overgenomen door machines.”
Nuancerend: “De tooling werkt nog wel beter met Engels dan Nederlands, dus in deze fase heb je altijd nog menselijke eindredactie nodig. Voor vertalingen maken wij gebruik van DeepL.”
Concreet gebruikt Fingerspitz AI om kleinere blokken tekst te laten schrijven. De hoofdtaak wordt opgedeeld in subvragen en aan de machine gevoed. De resultaten worden vervolgens aan elkaar geregen tot een groot geheel. “Zo kun je je eigen toon en stem in de tekst leggen.” Dat verlaagt bovendien het risico op het moment dat Google besluit om te algemeen klinkende AI-gegenereerde teksten uit zijn index te schoppen.
De efficiëntie zit volgens Jacobs vooral aan het begin van het proces. “In de voorbereiding van een project kun je uitzonderlijk snel iets op papier krijgen. Je slaat het handwerk over en kunt meer tijd besteden aan opmaak, aan de kwaliteit. Je kunt ook slimmer gaan werken.” Bijvoorbeeld door uit een video de audio te isoleren, die te voeden aan Amberscript voor een transcriptie, vervolgt hij. Die tekst kan je dan weer finetunen met Jasper.ai en de leesbaarheid vergroten met Languagetool. “De truc is te weten welke tools er zijn, hoe je die moet bevragen en hoe je de tools in het proces aan elkaar te knopen.”
Hoeveel besparing dit soort tools oplevert, weet Sjoerd de Kreij wel. Hij lanceerde eind vorig jaar de AI-gebaseerde schrijftool Schrijven.ai voor de Nederlandse markt: een schrijfmachine die op basis van taalmodel GPT-3 teksten schrijft. Het is een lerende machine, dus nadat hij het corpus van een auteur heeft bestudeerd, kan hij diens tone of voice aannemen.
De kosten voor contentmarketing kunnen door tien, stelt De Kreij. Bij AI-teksten doet Google namelijk het vooronderzoek en schrijft de toepassing een tekst tegen tien procent van de kosten.
De ondernemer plaatst wel een kanttekening: voor professioneel schrijven werkt ChatGPT niet goed genoeg. Zijn praktijk draait hoofdzakelijk op mkb’ers met weinig tijd die de contentproductie van e-mail, socials maar ook offertes en Powerpoints uitbesteden. “Daar hoef je binnenkort niet meer over na te denken. Over twee jaar neemt een tool dat over. Je krijgt dan zelf meer tijd voor diepgang en creativiteit.”
Dat laatste, tijd voor diepgang en creativiteit, wordt vaak benadrukt als een van de grote voordelen. Maar is dat wel zo? Gebruiken werknemers de vrijgevallen tijd inderdaad om zichzelf te verheffen, tot diepere en creatievere inzichten te komen? Dat moet de toekomst nog uitwijzen. Een werkgever kan het de inzet van AI’s net zo goed beschouwen als een manier om processen te automatiseren en personeelskosten te besparen.
Use case 2: Video en audio
Voor Deniz Alkaç, creatief (video)producent bij Bruut Amsterdam, is het duidelijk: AI’s kunnen met hun onverwachte antwoorden tot nieuwe creatie komen en dus inspireren. Een AI werkt voor de mens als opdrachtgever. Een mens zal zelf altijd vanuit zijn eigen, beperkte kaders werken. Een machine heeft de hele wereld als uitgangspunt en kan een opdracht op oneindig veel manieren interpreteren en uitvoeren.
“Je geeft de controle, maar ook veel handwerk uit handen”, zegt Alkaç. Als filmmaker moest je eerst een animator inhuren, vormgeving maken, storyboards en exact bedenken wat je hoe wilde. Allemaal voorbrereidend werk voor het produceren van een videocommercial. Tegen een tool als phenaki kun je vertellen wat je wilt en hij maakt het, weet Alkaç. “Het laat ons als creatieven met een paar drukken op de knop een idee valideren. En maakt het mogelijk om dingen los te laten. Je hoeft niet alles tot in detail te specificeren. Je kunt zaken open laten en die door de machine zelf laten invullen.”
Wat duidelijk naar voren komt, is dat machines ervoor zorgen dat makers grondiger moeten nadenken over wat ze wel maar ook niet willen. “Wat is een goede prompt?”, vat de Alkaç de essentie samen, verwzijend naar de opdracht, het vonkje dat het proces in werking stelt.. “Je moet heel nauwkeurig zijn in je vraag aan de AI. Dát is de kunst.”
In de wereld van videoproducties is het nog niet zo ver dat software het hele proces van A tot Z kan overnemen. Daarvoor is de techniek niet volwassen genoeg. Alkaç: “Je ziet nu vooral gimmicks. AI wordt nog niet echt gezien als onderdeel van de creatieve toolbox. Ik denk dat dat een onderschatting is. Het is een kwestie van tijd dat deze – noem het – kwasten naast je pallet als maker liggen. Over een paar jaar is het onderdeel van de suites van Microsoft en Adobe. Net zoals je nu spellingscontroles hebt. Het zal ongetwijfeld onze levens veranderen. Daarom moet je er ook op school mee leren werken.”
Een vooralsnog praktisch bezwaar van AI-tools is dat het veel rekenkracht kost voor een machine om één plaatje te renderen. “Een plaatje dat je heel creatief prompt kost al gauw een minuut om te maken.”
Naarmate een bedrijf groter wordt en digitale diensten centraler staan in de strategie kan het ook lonen om zelf AI-modellen te ontwikkelen. Immers, veel van de kennis en tools zijn publiek beschikbaar (via wetenschappelijke publicaties) en zelfs als opensourcesoftware beschikbaar. Hier maakt bijvoorbeeld RTL Nederland gebruik van. Hendrik Vincent Koops van RTL vertelde op Emerce EDAY 2022 dat slimme machines de thumbnails maken voor Videoland. Daar komt geen mens meer bij aan te pas. Ook de beeldarchieven, bijvoorbeeld voor nieuws, worden bestudeerd door machines en modellen. Bijvoorbeeld om straatbeeld te herkennen of andere standaard situaties. Door machines te leren kijken, kunnen video editors sneller passend beeld opvragen.
Bij TikTok wordt AI juist weer gebruikt bijvoorbeeld om muziek te maken bij reclamevideo’s. Machines kunnen ervoor zorgen dat de muziek (zelf gemaakt, dus geen rechtenafdracht) exact bij het ritme, lengte en tempo van de commercial passen. Dat legde de Nederlandse Janne Spijkervet legde tijdens datzelfde EDAY 2022 uit.
Naast tekst en beeld wordt kunstmatige intelligentie ook ingezet om nieuwe audio te genereren. Dat is een breed vakgebied en daarom niet zomaar te vangen met één specifiek taalmodel. Apple gebruikt bijvoorbeeld eigen technologie om de tekst van digitale boeken te laten voorlezen voor Engelse stemmen die menselijk klinken, maar toch echt machines zijn. Een ander voorbeeld toont zich bij de Noorse nieuwsuitgever Aftenposten. Die liet de stem van een podcastmaker klonen om deze de nieuwsartikelen op de website te laten voorlezen. News24 uit Zuid-Afrika doet hetzelfde.
Een opkomend domein is nasynchronisatie van series en films. Dat zullen we in Nederland welicht niet veel zien, omdat buitenlandse producties hier meestal worden voorzien van ondertiteling. In andere landen werkt men liever met nasynchronisatie, in jargon ‘dubbing’ genoemd. Dit soort technologie maakt het mogelijk om – zeg – Emma Watson of Tom Cruise complete films vloeiend in Duits, Turks of Spaans te laten spreken. Bedrijven als Flawless en ElevenLabs zijn hierin gespecialiseerd. Waarbij het mogelijk is om de bewegingen van de mond aan te passen aan de gekozen taal, voor een extra natuurlijk resultaat.
Een andere plek waar Voice AI groot kan worden, is in de wereld van de telefonische helpdesks. Dat denkt althans directeur Jente Kater van Voicebooking.com. Zijn bedrijf exploiteert een marktplaats waar stemacteurs hun diensten aanbieden, maar sinds 2019 heeft Kater ook de tenen in het water met automatische stemgeneratoren. Die AI wordt maandelijks door 22.000 nieuwe gebruikers ingezet. “Helpdesks van bijvoorbeeld Ziggo, KPN en bol.com krijgen heel veel herhaalvragen. Een voice AI-stem is dan een efficiënt, schaalbaar alternatief.” Wanneer het echter om professionele stemmen gaat, vertolkt door stemacteurs, ligt het iets genuanceerder. “Als je doel is om mensen te overtuigen of engageren, zoals bij commercials, explainers en e-learning, dan zijn stemnuances zo belangrijk dat je dat beter aan een mens kan overlaten. Voice AI’s zijn wel geschikt voor de onderkant van de markt, het budgetwerk.”
Of dat idee terecht is, moet de toekomst uitwijzen. Microsoft is een van de partijen die denkt dat het machines heel natuurgetrouw stemmen kan laten nadoen. Het model VALL-E kan iemands stem klonen op basis van drie seconden tekstinput. Vooralsnog spreekt het alleen Engels, maar het kan dan wel weer unieke dialecten, tongvallen en emoties overbrengen.
Use case 3: Software schrijven
Naast tekst, beeld en audio wordt kunstmatige intelligentie ook ingezet om computersoftware te schrijven. Dat gaat zelfs zo goed, dat programmeurs uren werk per dag kunnen weg automatiseren. Ten minste, als ze de daarvoor beschikbare tools gebruiken. Ook het hierbij populaire model Codex komt uit de stal van onderzoekslab OpenAI.
De AI’s in dit domein als hebben net als hun tegenhangers in andere toepassingen miljarden variabelen leren kennen, snappen en interpreteren. Gegeven een bepaalde opdracht zijn ze in staat om suggesties te doen op grond van servers vol eerder gebruikte softwarecode. Het verschil tussen de modellen van bijvoorbeeld ChatGPT, Codex en Tabnine zit in de nauwkeurigheid, diepte en breedte van de suggesties die ze doen.
ChatGPT bijvoorbeeld is eigenlijk een dom ding dat een hele brede waaier aan code kent. In beeldspraak: de AI kan tal van verschillende kleuren suggereren om een canvas mee te beschilderen. In de computerwereld houdt dat in, dat het echt verschillende oplossingen kan geven voor een bepaald probleem. Codex daarentegen kent vooral verschillende schakeringen van één kleur. Het leert eerst de schrijfstijl van zijn opdrachtgever en borduurt daar op voort. Programmeurs kunnen beide ‘kwasten’ of ‘pennen’ in hun etui stoppen en ze inzetten op verschillende momenten. De een werkt wat conceptueler of holistischer, de ander is eerder een spellingscontroleur of doet suggesties om een zin af te maken of voor de volgende zinnen.
Wat betekent deze ontwikkeling voor het werk van programmeurs? AI’s stellen hen in staat meer werk te verrichten in minder tijd, zich te focussen op de hogere frameworks en architectuur maar vinden tijdens het ambachtelijke handwerk ook een sparringpartner in de meedenkende tools. Net als in de wereld van beeldbewerking en -productie moet een programmeur zich een nieuwe vaardigheid eigen maken: ‘prompten’. Je moet manieren leren om tegen het AI-model te praten en de gewenste output te krijgen. Hoe specifieker de vraag, hoe puntiger het antwood. De rol van een mens ontwikkelt zich richting die van een regisseur, iemand die de kaders stelt.

Lees hier het bericht