NY Times steekt stokje voor AI-crawlers

De Amerikaanse krant New York Times verbiedt AI-bedrijven om de teksten, foto’s, video’s en animaties van zijn site te lezen. Het bedrijf wil niet voorzien in gratis digitaal ‘eten en onderdak’.
Hiertoe veranderde de uitgever begin deze maand de algemene gebruiksvoorwaarden van zijn online publicaties. Die stellen expliciet: “De content mag niet worden gebruikt om software mee te ontwikkelen, inclusief het trainen van machinelearning- en AI-systemen.”
Mediabedrijven zijn niet er niet happig op dat crawlers hun websites en apps opdrinken om daar hun eigen product of dienst mee te verbeteren. Op zijn minst willen ze daarvoor een vergoeding ontvangen, bijvoorbeeld zoals Google nu in meerdere landen betaalt voor nieuwskoppen in Google News. Op dezelfde manier staan meerdere Amerikaanse mediabedrijven open voor een vergoeding van CommonCrawl-achtige bedrijven. De NY Times niet. Die stapte juist uit zo’n overleg.
Common Crawl, bijvoorbeeld, is hofleverancier van AI-trainingsdata aan bedrijven als Anthropic, OpenAI, Meta en Google. Het levert data over zo’n veertig talen, waaronder ook het Nederlands. De kwaliteit van die data zou soms juridisch dubieus zijn.
OpenAI voelt de bui met klachten over crawlers al hangen. Het vertelt website-eigenaren nu hoe ze zijn graaiers buiten de deur kunnen houden. Dat gaat middels een simpele, algemeen geaccepteerde techniek: een paar regels kale tekst in het robots.txt-bestand dat praktisch alle websites hebben. Dat bestand vertelt tegen searchspiders hoe ze zich moeten gedragen op die site.
*) Foto door Andrea De Santis, op Unsplash

Lees hier het bericht