Connect with us

Jobs

AI-topman: AI trainen met vrij toegankelijke content is toegestaan

Published

on

Suleyman deed zijn uitspraak tegenover CNBC tijdens het Aspen Ideas Festival, waar hij de vraag kreeg of AI-bedrijven intellectuele eigendom stelen door hun grote taalmodellen (LLM’s) te trainen op data van het internet zonder toestemming of vergoeding van wie het creëerde.

‘Wat content betreft die op het open internet staat, daar is het sociaal contract sinds de jaren negentig dat het onder fair use valt,’ zegt Suleyman. ‘Eender wie kan het kopiëren, opnieuw maken, reproduceren. Bekijk het als freeware. Zo interpreteren we dat.’

‘Grijze zone’

Tegelijk merkt hij op dat als bedrijven of nieuwsorganisaties vermelden dat hun inhoud niet mag worden verzameld of gekopieerd (doorgaans in een juridische disclaimer op de site), het moeilijk wordt. ‘Dat is een grijze zone en dat gaat via rechtbanken lopen.’

De uitspraken van Suleyman zijn voor alle duidelijkheid een staaltje opportunisme. Ze doen denken aan Facebookoprichter Mark Zuckerberg die ooit zei dat privacy stilaan een uitdovend concept is. Op dezelfde manier probeert Suleyman weg te wuiven dat het businessmodel van veel AI-toepassingen steunt op trainingsdata die zonder toestemming werd gebruikt.

Zo zijn er verschillende sites die geen uitgebreide juridische disclaimer hebben, maar ook zij hebben auteursrechten en ook die teksten mogen niet zomaar zonder toestemming worden overgenomen.

Commercieel of niet-commercieel

Tegelijk is er een verschil tussen commercieel en niet-commercieel gebruik. Denk daarbij aan bijvoorbeeld een leerkracht die artikels op Datanews.be zo uitermate boeiend vindt dat men ze in de klas gaat verspreiden. Dat gaat geen rechtszaak opleveren.

Maar kopieer je artikels om er vervolgens, al dan niet in herschreven vorm, een eigen website mee te vullen, dan kan het zijn dat de juridische dienst van Roularta, uitgever van Data News, je op vriendelijke maar licht dwingende toon gaat vragen om daar mee te stoppen.

Tegelijk lijkt Suleyman een onderscheid te maken tussen wie geld heeft voor een rechtszaak en wie niet. OpenAI, waar Microsoft hoofdinvesteerder is, sloot de afgelopen maanden meerdere deals met spelers zoals de New York Times en Axel Springer (de uitgeverij achter onder meer Politico, Bild en Business Insider). Het bedrijf erkent dus wel dat platformen waar inhoud vrij te lezen valt, betaald horen te worden. Maar is schijnbaar niet van plan om voor ieders inhoud op het internet te betalen.

Consument vs producent

De ironie wil dat de houding van Microsoft hierin evolueert naarmate het creëert of consumeert. In de jaren negentig en 2000 was Microsoft zeer assertief met juridische acties wanneer iemand open source software maakte die leek op iets van Microsoft, of functies uit Office, Windows of andere software nabouwde. Het was diefstal en die diefstal nam jobs en inkomsten weg van hardwerkende softwareontwikkelaars.

Vandaag zijn de rollen omgekeerd en bouwen Microsoft en OpenAI toepassingen die maar succesvol zijn als ze genoeg informatie en taalgebruik overnemen en nabootsen van echte mensen. En hoewel die ontwikkelingen cruciaal zijn voor veel technologiebedrijven, doen sommigen graag alsof de bron van die kennis iets bijkomstig is.

Bekijk hier de hele video van het gesprek met Suleyman.

Continue Reading