Big Data Verbindingen

Big data en privacy

Laatst bijgewerkt: 18 september 2019
Leestijd: 11 minuten, 42 seconden

Er is de afgelopen decennia ontzettend veel veranderd in de wereld, met name op het gebied van ICT. Zo is het aantal mensen waar we mee kunnen communiceren enorm gegroeid, net als de hoeveelheid informatie die we kunnen raadplegen. Dit geldt echter ook voor de informatie die grote partijen over ons als internetgebruikers verzamelen. Woorden als “big data” horen we steeds vaker. Wat bekent dat nu eigenlijk? Wat is big data? Is het gevaarlijk? En wat voor effect heeft het op onze privacy? Dat zijn de vragen die we in dit artikel bespreken.

Wat is big data?

Lijst met VergrootglasMet big data bedoelen we de gigantische collecties gegevens die constant verzameld worden. Denk bijvoorbeeld aan alle informatie die Google bezit over de zoekopdrachten van zijn gebruikers. Deze verzamelingen zijn zo groot en complex dat ze lastig op de traditionele manier te analyseren zijn. Big data bestaat omdat bedrijven en andere partijen, zoals overheden, steeds meer informatie over ons verzamelen. Nieuwe technologieën, digitalisering en met name het internet maken dit mogelijk. Als je big data-gegevens op de juiste manier analyseert, kun je bepaalde patronen en statistieken ontdekken. Zo wordt big data vaak gebruikt om voorspellend marktonderzoek te doen: welke producten zullen klanten sneller kopen? Wat voor advertenties zijn het effectiefst?

Big data voldoet meestal aan de volgende eigenschappen, ook wel de drie v’s genoemd:

  • Volume (hoeveelheid): Big data is geen steekproef. Het is een kwestie van (ogenschijnlijk eindeloze) observatie en registratie.
  • Velocity (snelheid): Dit gaat over de snelheid waarmee de informatie wordt verzameld. Big data is vaak direct en in real-time beschikbaar.
  • Variety (variatie): Big data komt voort uit verschillende soorten gegevens en lost vaak missende informatie op door data te combineren.

Naast de drie v’s heeft big data nog een aantal kenmerken. Zo is het perfect voor machinaal leren. Dit betekent dat computers en andere vormen van kunstmatige intelligentie van de data kunnen leren. Vanwege de grote datasets kan men, met behulp van computers, op een uiterst effectieve manier patronen in big data detecteren. Ook komt big data vaak voort uit een digitale vingerafdruk. Dit betekent dat het een bijproduct van digitale activiteit is en kan helpen bij het opbouwen van een persoonsprofiel van gebruikers.

Welke soorten big data zijn er?

Je kunt big data op verschillende manieren indelen en categoriseren. De eerste en meest gebruikte manier verdeelt big data afhankelijk van het soort informatie dat wordt verzameld. De drie mogelijke categorieën zijn vervolgens: gestructureerde big data, ongestructureerde big data en semi-gestructureerde big data.

  1. Gestructureerd: Wanneer big data gestructureerd is, kan de informatie op een georganiseerde en geordende manier worden opgeslagen. Hierdoor is het toegankelijker en gemakkelijker om in te zien. Een voorbeeld is een adressenlijst die in de database van een bedrijf staat. Hier staan namen, telefoonnummers en woonplaatsen van alle werknemers op een gestructureerde manier (in een nette tabel bijvoorbeeld) opgesomd.
  2. Ongestructureerd: Ongestructureerde big data is niet logisch of georganiseerd. Er ontbreekt een vorm of geordende weergave die betekenis aan de gegevens geeft. Omdat dit soort data geen logica heeft, is het een stuk moeilijker te navigeren en begrijpen dan gestructureerde data. Over het algemeen is een groot deel van verzamelde big data in eerste instantie ongestructureerd.
  3. Semi-gestructureerd: Semi-gestructureerde data is gestructureerde data die deels ongestructureerd is. Het is dus een combinatie van de twee eerdergenoemde vormen. Het is niet volledig willekeurig, maar ook niet netjes gerangschikt in een database voor goede analyse. Een voorbeeld is een webpagina die speciale metadata tags (extra informatie die niet direct zichtbaar is) bevat, bijvoorbeeld omdat er bepaalde trefwoorden in voorkomen. Deze tags geven informatie op een effectieve manier door, zoals de auteur van een tekst of het moment waarop deze online is gezet. De tekst zelf is in principe ongestructureerd, terwijl de trefwoorden en andere metadata het toch enigszins gemakkelijk te analyseren maken.

Indeling op basis van big data-bron

Een tweede indeling die soms wordt gemaakt, is afhankelijk van wie de big data heeft geleverd. Hoe is de data verzameld? Ook hier zijn er weer drie categorieën.

  1. Door mensen: denk hierbij aan boeken, foto’s, video’s en informatie op websites en sociale media zoals Facebook, Twitter, LinkedIn, Instagram, enzovoort.
  2. Dankzij de registratie van processen: Dit zijn de meer traditionele vormen van big data die in de bedrijfswereld worden vergaard om bijvoorbeeld werkprocessen te optimaliseren.
  3. Door machines: Dit type big data komt voort uit de groeiende hoeveelheid sensoren in machines. De output van deze data is door machines gegenereerd en kan zowel erg simpel of ontzettend complex zijn. Deze gegevens zijn vaak goed gestructureerd en vormen een compleet plaatje.

Wat kun je met big data doen?

Facebook LogoAl deze informatie klinkt vast nogal cryptisch. Laten we het eens wat concreter en praktischer maken. Er zijn heel veel verschillende manieren waarop bedrijven en organisaties big data gebruiken. Wellicht denk je allereerst aan de massa’s informatie die grote internetbedrijven zoals Google, Facebook, Spotify en Amazon over ons verzamelen. Facebook houdt data bij over al zijn gebruikers en bepaalt daarmee wat jij op je tijdlijn te zien krijgt, in de hoop dat dat aansluit op jouw interesses en je dus langer op de website blijft. Amazon verzamelt informatie over de pagina’s die klanten bezoeken en de producten die ze kopen. Daarmee kan Amazon suggesties geven, in de hoop zo meer geld te verdienen.

Big data wordt echter ook op andere manieren gebruikt. Zo verzamelt de NS informatie over de drukte op verschillende trajecten en in treinen. Met deze data besluiten ze vervolgens waar ze extra treinen inzetten en hoe de nieuwe dienstregeling eruit komt te zien. Een ander bekend voorbeeld komt van UPS. De wereldwijde koeriersdienst gebruikt al een tijdje speciale software die uit big data is voortgekomen. Daarmee worden bochten naar links op hun route vermeden, omdat die gevaarlijker en duurder zijn. Met dit systeem bespaart UPS jaarlijks een gigantische hoeveelheid benzine.

Is big data gevaarlijk?

Big data is in veel gevallen ontzettend handig. Het geeft ons boordevol informatie. Deze informatie kunnen we vervolgens gebruiken om processen te verbeteren, onze aanpak te veranderen of zelfs een bedrijf beter te laten functioneren. Dit betekent echter niet dat het vergaren en gebruiken van big data geen nadelen heeft. Hieronder bespreken we de vijf belangrijkste risico’s die big data met zich meebrengt.

Hackers en dieven

Bij alles wat we online doen, moeten we stilstaan bij de mogelijkheid dat onze informatie en gegevens over ons internetgedrag gestolen worden. Het aantal datalekken en digitale inbraken is over de jaren fors toegenomen. Er zijn regelmatig berichten over nieuwe datasets met wachtwoorden die criminelen online verkopen, bijvoorbeeld op het dark web. Deze wachtwoorden zijn meestal gestolen uit de databases van officiële instanties, websites en bedrijven. Hoe “bigger” de data, hoe interessanter het voor potentiële dieven is om te stelen. Met deze data kunnen ze grote problemen veroorzaken en tevens een flinke inbreuk op je privacy maken.

Privacy

Het verzamelen van gegevens gebeurt steeds vaker. Hoewel de technologie continu verder vooruit streeft, zijn er niet altijd duidelijke regels over hoe de privacy van gebruikers ondanks of na deze ontwikkelingen moet worden beschermd. Denk hierbij aan de volgende vragen: Welke informatie mag er verzameld worden? Over wie? En wie heeft er toegang tot die data? Bij het creëren van grote databestanden is de kans groot dat er ook privacygevoelige informatie verzameld wordt. Dit is gevaarlijk, zelfs al is er geen sprake van hackers of dieven. Privacygevoelige datasets kunnen immers door iedereen misbruikt worden, ook door bedrijven en organisaties.

Slechte data-analyse

De reden dat verschillende bedrijven en organisaties big data verzamelen, is omdat ze er interessante analyses op los kunnen laten. Hierdoor krijgen ze mogelijk nieuwe inzichten die ze in de toekomst slim kunnen gebruiken. Maar net als bij het analyseren en onderzoeken van normale datasets, brengt een verkeerde interpretatie en analyse van grote datasets grote potentiële risico’s met zich mee. Dit kan namelijk tot verkeerde conclusies leiden. Met de verkeerde conclusies worden waarschijnlijk ook verkeerde plannen voor de toekomst gemaakt, wat slechte resultaten kan veroorzaken.

Slechte data

Big data is erg populair en er is steeds meer animo voor het registreren van informatie onder bedrijven en andere partijen. Hierdoor wordt er steeds meer data verzameld, waarbij later pas wordt nagedacht over eventuele analyse. Je loopt vervolgens het risico dat je verkeerde of irrelevante data verzamelt en analyseert. Dit leidt weer tot het uitblijven van resultaten of het trekken van verkeerde conclusies. Ondertussen kost het verzamelen van deze informatie vaak ook nog geld, dus bestaat er een kans dat de dataverzameling zijn eigen kosten niet terugverdient.

Registratie big data met verkeerde intenties

Het verzamelen van big data wordt ook steeds meer door bedrijven, instanties en overheden gedaan om profielen van personen te kunnen maken. Hierbij krijgen gebruikers of burgers in vrijwel alle gevallen te weinig informatie over welke, hoe en waarom hun persoonsgegevens en privédata worden geregistreerd. Dit heeft grote negatieve gevolgen voor hun privacy. Alles wat ze (online) doen, kan opgeslagen worden. Bovendien kunnen big data-verzamelaars met wat onderzoek en analyse van de verzamelde data gemakkelijk de beslissingen van mensen beïnvloeden en manipuleren.

Big data en privacy

Smartphone met OorEr zitten flink wat nadelen en risico’s aan het verzamelen van big data. Toch wordt het op grote schaal gedaan, vooral vanwege de voordelen die het met zich meebrengt. Informatie wordt steeds gemakkelijker en in grotere hoeveelheden geregistreerd. Vaak gebeurt dat zelfs in het geheim. Dit heeft grote gevolgen voor onze privacy. We hebben het al even kort gehad over de mogelijke gevaren voor privacy wanneer partijen big data registreren met verkeerde intenties. Omdat privacy zoveel raakvlakken met het verzamelen van gegevens heeft, willen we hier echter nog even dieper op ingaan.

Massa dataverzameling

Veel bedrijven, zoals Google, Facebook en Twitter, zijn door hun verdienmodel voor een groot deel afhankelijk van advertenties. Om deze zo effectief mogelijk te maken, creëren ze persoonsprofielen van hun gebruikers. Overheden en geheime diensten gebruiken informatie over individuen om burgers te volgen en controleren. Dit soort praktijken zijn voor deze partijen erg belangrijk geworden. Echter, als er zoveel data over ons wordt verzameld, is er natuurlijk ook veel data voor kwaadwillende partijen om te manipuleren. Dit is gevaarlijk. Doordat we te maken hebben met steeds meer digitalisering, wordt het verzamelen van gegevens ook steeds gemakkelijker.

Datacollectie gebeurt vaak op manieren waarbij de bezoeker of burger dit zelf niet door heeft. Hierdoor zijn we niet echt op de hoogte van de gegevens die bedrijven en instellingen over ons hebben, terwijl de hoeveelheid data toe blijft nemen. Door het samenvoegen van datasets en verdere analyse komen er vaak nóg meer privacygevoelige gegevens en informatie naar boven. Zo weten bedrijven al snel meer over je dan je mogelijk over jezelf weet. Wie je bent, waar je woont, wat je hobby’s zijn, wie je vrienden zijn: al deze informatie is niet langer privé. Geen fijn idee, zul je vast denken. Gelukkig staan we er niet helemáál alleen voor.

Privacywetgeving

Cookies op beeldschermDe impact van big datasets op je privacy is erg groot, zoals je hierboven hebt kunnen lezen. Door middel van wetgeving worden we gelukkig deels tegen deze privacyinbreuk beschermd. De AVG (Algemene Verordening Persoonsgegevens) die in 2018 in de Europese Unie is ingevoerd, is hier een belangrijk onderdeel van. Deze nieuwe privacywet geeft ons meer rechten, die bovendien ook meteen beter worden beschermd. Hierdoor kun je nu bijvoorbeeld een verzoek indienen bij Google om je persoonlijke gegevens uit de zoekresultaten te laten verwijderen. Ook worden bedrijven zoals Facebook flink voor het blok gezet met betrekking tot de informatie die ze over hun gebruikers verzamelen en riskeren ze flinke boetes als ze zich niet aan de AVG houden.

De huidige (privacy)wetgeving is helaas nog niet perfect. Vooral bij het verzamelen van big data schiet deze vaak tekort, waardoor er zelfs legaal privacy-schendende activiteiten plaatsvinden. Naast deze legale activiteiten, hebben klokkenluiders als Edward Snowden en Chelsea Manning grote illegale gevallen van big data-registratie aan het licht gebracht. Er is dus ook in de media steeds meer aandacht voor de privacyrisico’s van big data. Dit is de eerste stap in een lang proces naar een verbeterde privacywetgeving die past bij deze tijd.

Als het om je privacy gaat, wil je waarschijnlijk niet jaren wachten tot de wet je eindelijk goed beschermd. Veel mensen zullen zich dan ook afvragen: “wat kan ik zelf doen tegen de privacyrisico’s van big data?” Er zijn wel een aantal trucjes die je daarbij kunnen helpen.

Hoe word je niet opgenomen in online big data-sets?

Big data-sets kunnen in veel gevallen problematisch zijn voor je privacy en veiligheid. Deze massale verzamelingen aan informatie bevatten namelijk hoogstwaarschijnlijk ook persoonlijke data over jou en je (internet)gedrag. Deze gegevens kunnen op allerlei manieren tegen je worden gebruikt, of dit nu gedaan wordt door marketingbedrijven of cybercriminelen. Je doet er dus goed aan te zorgen dat er zo min mogelijk data over je wordt opgeslagen. Er zijn een aantal manieren waarop je dit kunt doen:

  • Gebruik je echte gegevens zo min mogelijk online. Vul bijvoorbeeld waar mogelijk niet je echte naam, adres, telefoonnummer en e-mailadres. Ook internetwachtwoorden kun je het best zo onpersoonlijk mogelijk maken.
  • Houd de volgende gedachte in je achterhoofd: alles wat je op het internet zet, blijft er voor altijd op staan. Dit is misschien niet in alle gevallen volledig waar, maar het helpt wel. Als je constant rekening houdt met deze mogelijkheid, beperk je de hoeveelheid privégegevens die je deelt automatisch.
  • Zorg ervoor dat je internetverbinding beveiligd en geanonimiseerd is, bijvoorbeeld door gebruik te maken van de Tor-browser en/of een VPN.
  • Gebruik één (of meerdere) advertentie-blokkerende browser plug-ins.
  • Gebruik één (of meerdere) browser plug-ins die trackers en cookies blokkeren.
  • Wis regelmatig je tijdelijke internetbestanden en cookies.
  • Log uit op sites als je ze even niet gebruikt.

Deze stappen zijn een goed begin om jouw privégegevens te beschermen. Big data wordt echter op veel meer plekken dan alleen het internet verzameld, dus houd daar altijd rekening mee. Wil je weten welke informatie een bepaald bedrijf over jou heeft verzameld? Dan heb je onder de AVG bovendien altijd het recht om hier vraag naar te doen.

Hoofdauteur:

Meer artikelen uit het ‘Anoniem Browsen’ dossier

Reacties
Plaats een reactie
Een reactie plaatsen