De Garante per la Protezione dei Dati Personali (GPDP) is een onderzoek gestart naar de dataverzamelingspraktijken om algoritmes en AI-modellen te trainen. Met het onderzoek wil de privacywaakhond controleren of websites voldoende beveiligingsmaatregelen nemen om het scrapen van privégegevens tegen te gaan. Mocht dat niet het geval zijn, dan zal de toezichthouder optreden.
De GPDP kondigt het onderzoek aan via een persbericht.
Scraping brengt privacyrisico’s met zich mee
Geavanceerde taalmodellen als ChatGPT en Google Bard zijn momenteel erg populair. Om dergelijke programma’s te trainen, is veel data nodig. Deze gegevens worden veelal verzameld van websites en andere openbare bronnen. Hiervoor wordt een techniek gebruikt die scraping wordt genoemd. Dat is een dataverzamelingsmethode waarbij een programma automatisch het internet afspeurt naar bruikbare data en deze aan een database toevoegt om, in dit geval, een algoritme of AI-model te trainen.
Scraping is een handige manier om in korte tijd veel trainingsdata te verzamelen. Het brengt echter ook risico’s voor onze privacy met zich mee. De software kan namelijk op ongekend grote schaal persoonsgegevens verzamelen. Gebruikers geven bovendien geen toestemming om hun data te gebruiken voor het trainen van algoritmes en AI-modellen. Dat is vanzelfsprekend in strijd met de Europese privacyregels.
AI-modellen gebruiken grote hoeveelheden data voor uiteenlopende doeleinden
De GPDP stelt dan ook een onderzoek in om te kijken in hoeverre websites beveiligingsmaatregelen nemen om scraping van privégegevens tegen te gaan. Het onderzoek richt zich op openbare en private websites die persoonsgegevens online aanbieden en in Italië zijn gevestigd, dan wel hun diensten aanbieden in Italië.
“Het is bekend dat verschillende AI-platforms door middel van scraping enorme hoeveelheden gegevens verzamelen, waaronder persoonsgegevens. Deze data worden vervolgens door de platforms gebruikt voor verschillende doeleinden, terwijl de sites waarvan de gegevens afkomstig zijn deze hebben gepubliceerd voor specifieke doeleinden, waaronder nieuwsvoorziening en bestuurlijke transparantie”, zo schrijft de Italiaanse toezichthouder in een persverklaring.
De privacywaakhond nodigt branche- en consumentenorganisaties, privacyexperts en academici uit om hun mening over het verzamelen van privégegevens, beveiligingsmaatregelen tegen scraping en trainen van algoritmes en AI-modellen te delen. Ze hebben zestig dagen de tijd om hun adviezen door te sturen. Hoelang het onderzoek in beslag gaat nemen, is onbekend.
Tijdelijk verbod ChatGPT in Italië
Dat uitgerekend de Italiaanse toezichthouder een onderzoek instelt naar de verzameling en verwerking van persoonsgegevens door algoritmes en AI-modellen, is niet verrassend. De GPDP is al geruime tijd kritisch over het trainen van programma’s die kunstmatige intelligentie gebruiken. Eind maart legde de privacywaakhond een verbod op aan ChatGPT, omdat ontwikkelaar OpenAI niet open en eerlijk was over de gegevens die het bedrijf van gebruikers verzamelde.
Verder was er geen filter die de leeftijd van gebruikers controleerde, waardoor minderjarigen zich potentieel konden blootstellen aan ongeschikte content. Tot slot ontstond er onduidelijkheid over de juridische grondslag waarop de chatbot persoonsgegevens verzamelde en verwerkte om de algoritmes van het programma te trainen.
Een maand later, in april, werd het verbod opgeheven, omdat OpenAI aanvullende maatregelen had genomen om te voldoen aan de Italiaanse en Europese privacywetgeving.
