Home » Artikelen (VPN, privacy en internetveiligheid) » Big data: Hoe je online je privacy steeds meer kwijtraakt

Big data: Hoe je online je privacy steeds meer kwijtraakt

privacy-eraseAls een vreemdeling naar je toe komt op straat, zou je hem je naam, burgersurvice-nummer en e-mail adres geven? Nee! Maar mensen delen vaak allerlei persoonlijke informatie uit op het internet die het mogelijk maken allerlei andere gegevens over je er van af te leiden. Diensten zoals Facebook, Twitter en Flickr zijn oceanen van persoonlijke details – verjaardagswensen, school en werk roddels, foto’s van familie vakanties, en films die je gekeken hebt, tot relaties nu en vroeger, telefoonnummers emailadressen, noem maar op.

Computer wetenschappers en deskundigen zeggen dat zo’n schijnbaar onschuldige stukjes zelfopenbaring steeds meer verzameld wordt en na verloop van tijd weer in elkaar gezet kan worden door computers die daardoor een bijzonder gedetailleerd van de identiteit van een persoon kunnen fabriceren.

“Technologie heeft de conventionele definitie van persoonlijk identificeerbare informatie achterhaald,” zei Maneesha Mithal, associate director van de privacy divisie van de Federal Trade Commission. “Je kunt inmiddels erachter komen wie een persoon is zonder deze feitelijke ID-gegevens.”

In een project aan het Massachusetts Institute of Technology, analyseerden wetenschappers meer dan 4.000 Facebook-profielen van studenten, inclusief links naar vrienden die zeiden dat ze homo waren. Het paar zou kunnen voorspellen, met een nauwkeurigheid van 78 procent , of een profiel toebehoord aan een homofiele man.

Tot voor kort werden dit soort correlaties uit BIG-data alleen gedaan door wetenschappers, maar inmiddels zijn marketeers en wellicht ook criminelen ermee aan de slag gegaan.

Maar de F.T.C. maakt zich zorgen dat de regels om de privacy te beschermen geen gelijke trend aanhouden met de vooruitgang in de technologie, de techniek haalt de wet in.

De bezorgdheid is ook niet vergezocht. Een aantal jaar terug heeft Netflix 1 miljoen dollar toegekend aan een team van statistici en informatici die in een driejarige wedstrijd voor het analyseren van de filmverhuur geschiedenis van 500.000 abonnees en verbetering van de voorspellende nauwkeurigheid van Netflix aanbevelingssoftware met ten minste 10 procent.

online-privacy-300x189

In sociale netwerken kunnen mensen zich hiertegen verdedigen (tegen identificatie) door het gebruiken van strakke privacy controles op informatie in persoonlijke profielen. Alleen zullen de acties op individu-niveau waarschijnlijk niet voldoende zijn.

Misschien openbaar je zelf geen persoonsgegevens, maar je online vrienden en collega’s kunnen het voor u doen, door (vaak indirect) te  verwijzen naar je school of werkgever, geslacht, locatie en interesses. Patronen van sociale communicatie, zeggen de onderzoekers, zijn veelzeggend.

“Persoonlijke privacy is niet langer een individuele zaak,” zegt Harold Abelson, de computer science professor aan het MIT “In de online wereld van vandaag  kunnen je echt oordelen door te kijken naar je vrienden.” Ga maar na, als 30% van je vrienden aan dezelfde univeriteit of school studeert, dan zul jij daar ook wel aan verbonden zijn (of zijn geweest)

Bij elkaar verzameld, kan de pool van informatie over elk individu een onderscheidend beeld, een soort “sociale handtekening,” vormen.

De kracht van computers om mensen op basis van sociale patronen te identificeren werd aangetoond vorig jaar in een studie door hetzelfde paar onderzoekers die de anonieme databank Netflix gekraakten aangetoond.

Door het onderzoeken van correlaties tussen de verschillende online accounts, toonden de wetenschappers aan dat ze meer dan 30 procent van de gebruikers van zowel Twitter, de microblogging dienst, en Flickr, een online foto-sharing service kon identificeren, ook al waren de accounts ontdaan van identificerende gegevens als accountnamen en e-mailadressen.

“Als je deze grote datasets met elkaar weet te verbinden, kun je met een klein beetje informatie van ons gedrag en de structuur van onze sociale netwerken een persoon identificeren,”zeiden de onderzoekers.

Nog zenuwslopender voor privacy voorstanders is het werk van twee onderzoekers van de Carnegie Mellon University. In een paper gepubliceerd tonen, Alessandro Acquisti en Ralph Gross dat ze nauwkeurig de volledige negen cijferige sofinummers van 8,5 procent van de mensen geboren in de Verenigde Staten tussen 1989 en 2003 konden voorspellen – dit ging dus om bijna vijf miljoen mensen!

Sofi-nummers worden gebruikt door identiteitsdieven omdat ze als identificatiemiddelen dienen voor het bankieren, creditcard en om andere transacties te verifiëren.

De Carnegie Mellon onderzoekers gebruikten openbaar beschikbare informatie uit vele bronnen, waaronder profielen op sociale netwerken. Met name de geboortestad en datum waren van belang.

Dat hielp hen bij het achterhalen van de eerste drie cijfers van elk sofi-nummer, die de Amerikaanse overheid per locatie heeft toegewezen. De overige zes cijfers worden door de overheid toegewezen op een niet bekende methode, maar dit algortime wisten de onderzoekers te vinden door het analyseren van duizenden sofinummers die ze hadden verzameld.

In het algemeen kunnen we stellen dat “online redlining,” waar producten en diensten worden aangeboden aan een aantal consumenten en anderen niet gebaseerd op statistische conclusies en voorspellingen over individuen en hun gedrag de eerste tekenen zijn dat er teveel data van mensen beschikbaar is.

Jon Kleinberg, hoogleraar informatica aan de Cornell University, die sociale netwerken bestudeert, is sceptisch dat eventuele regels veel invloed zullen hebben. Zijn advies: “Als je dingen online doet, moet je je gedragen alsof je ze in het openbaar doet- omdat dit in praktijk ook steeds meer zo is.”

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *