Bjarno Oeyen

De invloed van Open Data op de privacy en waarom Open Science ook vrij moet zijn...

Oorspronkelijk had ik dit hele artikel geschreven voor een blogbericht op de blog van Redelijk Eigenzinnig (http://blog.redelijkeigenzinnig.be/). Maar nadat ik dit geschreven had, en meermaals nagekeken en herwerkt, las ik dat deze maximaal ongeveer 400 woorden mocht zijn. Daarom dat ik een herwerkte versie heb geschreven die ook gepubliceerd is op de blog van Redelijk Eigenzinnig. Hieronder staat mijn originele (lange) versie.

Als je niet volledig mee bent dan helpt het misschien om de lezing te bekijken en het artikel over het debat te lezen. Tussen deze twee is ook een intervisiemoment geweest om in een team de lezing en het onderwerp van Duurzame Wetenschap te bespreken.

Als ik aan duurzame wetenschap denk, dan denk ik in de eerste plaats aan het vermijden van onnuttige onderzoeken. Geen onderzoeken die vreemde correlaties proberen te ontdekken, ook al is het niet onmogelijk om er onderzoek naar te doen. Onderzoeken moeten niet bepaald maatschappelijk verantwoordbaar zijn (want er zijn vele onderzoeksdomeinen waar de link met de maatschappij eerder indirect aanwezig is), maar er moet wel twee keer nagedacht worden alvorens een onderzoek te starten.

Naast het feit dat het onderzoek duurzaam moet zijn, moet de uitwerking ervan ook op een duurzame manier gebeuren. Een van de elementen die tijdens de lezing aangehaald is geweest, is het vermijden van meermaals dezelfde data te gaan verzamelen, als er al soortgelijke data bestaat, door gebruik te maken van open data: het gebruik maken van reeds beschikbare data. Rekening houdend met waar de data vandaan komt, en uit welk jaar, kan je op deze manier data hergebruiken. Naast hergebruik van open data voor nieuwe onderzoeken, kan open data ook gebruikt worden voor bestaande onderzoeken beter te kunnen evalueren, aangezien de rauwe informatie ook beschikbaar is.

De lezing zelf illustreerde een vrij ambitieus idee, het idee van open science. Open science heeft vele onderdelen. De uitwerking is op een bepaalde manier al wel gerealiseerd (door middel van vele online platformen), maar het is nog steeds onduidelijk of het echt helemaal werkt en volledig integreerbaar is in elke vorm van onderzoek. Voorbeelden die in het debat zijn aangehaald: hoe kan je open data gebruiken in een vakgebied zoals Ethiek? Op een bepaalde manier is het wel een vooruitgang om wetenschap toegankelijker te maken voor een breder publiek. En dat is in mijn ogen persoonlijk zeer positief.

Na de lezing had ik onmiddellijk heel wat vragen, maar zo goed als al deze vragen draaiden bij mij persoonlijk rond open data en data-driveness. Als student derde bachelor computerwetenschappen denk ik natuurlijk op een heel andere manier over data dan de meeste mensen (data is voor mij iets dat voorgesteld wordt als een combinatie van nullen en eentjes). Data voorgesteld in binaire notatie kan enorm veel betekenen, sterker nog, alles dat op een computerscherm getekend kan worden, of getypt kan worden, kan voorgesteld worden. Net omdat het in binaire notatie staat is dit eenvoudig om door te sturen naar anderen. Met dossieren vol met neergepende data zou dit quasi onmogelijk zijn!

Een van de eerste vragen die ik had was: wat is de eigenlijke bron van de data, als deze beschikbaar gesteld wordt? Hebben studenten een enquête moeten invullen voor gegevens te voorzien voor een onderzoeksproject? Zijn er gegevens verzameld door het internet af te pluizen met een zoekmachine? Is er data uit poortjes in de metro gehaald om te weten welke poortjes het vaakst gebruikt worden? Of moeten gebruikers met een bepaald apparaatje rondlopen dat hun dagelijkse activiteiten automatisch bijhoudt, of moeten ze een dagboek bijhouden?

Data kan op vele manieren verzameld worden. Van sommige zijn gebruikers bewust omdat ze iets moeten meedragen, of op regelmatige basis iets moeten opschrijven. Maar van andere (bijvoorbeeld het internet afpluizen, of de poortjes in de metro) is iets minder transparant.

De manier hoe data verzameld wordt is niet zo belangrijk, wat echter wel belangrijk is is het feit dat de personen die data aanleveren weten hoe deze data gebruikt wordt. Zeker als de data publiek gemaakt wordt. Misschien heb je er geen probleem mee dat er data bijgehouden wordt hoevaak je de metro gebruikt, maar als de vervoersmaatschappij deze data op een manier publiceert, samen met je kaartnummer dan kan iemand die je kaartnummer heeft weten waar en wanneer je was. Hoe waarborgen we de privacy van de mensen die input aan de onderzoeksdata gegeven hebben als de data gepubliceerd word?

In de gepubliceerde data staat alleen maar een kaartnummer, datum- en tijdstip van het inchecken en de locatie van de scanner. Kaartnummer is misschien nuttige informatie om gebruikers te kunnen onderverdelen onder gewoontes. Maar natuurlijk stelt elk kaartnummer een persoon voor...

Ik illustreer het even aan een nieuw voorbeeld. Hiervoor haal ik mosterd bij Blown To Bits (zie onderaan) als illustratie om aan te geven wat data kan betekenen. Stel dat een bepaalde onderzoeksinstelling een onderzoek doet naar het aantal hiv-patiënten in Brussel. Deze gegevens worden op een bepaalde manier verzameld. De onderzoekers willen graag een kaartje publiceren in een belangrijk wetenschappelijk tijdschrift om "hot places" aan te tonen. Dit tijdschrift vraagt echter de afbeelding in een zo hoog mogelijke resolutie op, zodanig dat die afbeelding in de beste kwaliteit afgeprint kan worden. Het tijdschrift heeft ook een online versie... Net omdat deze hoge resolutie gebruikt is maakt dit mogelijk voor iedereen (die toegang heeft tot de online versie) in te zoomen op de kaart.

Leg onder die kaart het stratenplan van Brussel, en je kan tot op het huis nauwkeurig bepalen waar er mensen wonen met hiv. Een stip op een kaart kan een persoon (of meerdere personen) betekenen. Op een lage resolutie is dit niet duidelijk, maar als de resolutie hoog genoeg is dan kan hiermee de anonimiteit mee verloren gaan.

Data kan veel voorstellen. Maar metadata nog veel meer. Dat is namelijk de data die over data gaat. Toevallig heb ik een paar dagen geleden een toepassende tweet gezien op Twitter: https://twitter.com/dats/status/661887469009420288. De slide laat verzamelde meta-data zien die door bijvoorbeeld surveillance kunnen verzameld worden, maar hetzelfde is ook mogelijk met vrijwillig onderzoek. Zelfs als we specifieke gegevens afknippen (zoals de inhoud van een gesprek of een brief), kan er nog veel afgeleid worden! Gevolg: zelfs al wordt in een onderzoek niet alles van data gepubliceerd: met maar een deel van de data kan je toch al een heleboel afleiden.

Privacy zou gewaarborgd kunnen worden door geen identificatie (ook niet als het afleidbaar is) mee te geven. Maar dat levert dan weer onvolledige gegevens op, en daarmee kunnen we ook niet meer spreken van open data. Er ontstaat in mijn ogen een paradox als je probeert data vrij te geven, maar privacy wilt waarborgen.

Natuurlijk betekent open data niet onmiddellijk dat de data ook vrij beschikbaar is, zonder een kost. Niet iedereen kan aan de data, er zal misschien een prijs voor moeten betaald worden, of een bepaald samenwerkingscontract afgesloten moeten worden waarbij data uitgewisseld wordt. Maar als persoon die data afgeeft voor een onderzoek heb je helemaal geen controle over wie je data te zien krijgt als de data verder verhandeld wordt. En daar zit net het addertje onder het gras.

Een ander aspect is dat open science in mijn ogen alleen kan werken als het vrij toegankelijk is, dus net zonder dat er een bepaalde kost moet betaald worden. Natuurlijk is dit niet altijd mogelijk omdat bedrijven vaak veel geld spenderen in bepaalde onderzoeken, en dit vervolgens niet onmiddellijk beschikbaar willen maken voor concurrerende bedrijven, of om de sociale impact van een studie niet vrij te geven, mocht deze schadelijk zijn voor het bedrijf. Maar als data gebruikt moet worden om onderzoeken betrouwbaarder te maken, dan kan de betrouwbaarheid alleen maar gegarandeerd worden als die voor zoveel mogelijk mensen beschikbaar is.

Waarom? Ik kijk dan even naar open source projecten. De Linux Kernel werd kort tijdens de lezing en het debat hier eigenlijk al voor aangehaald: net omdat het vrij beschikbaar is, en open is maakt dit het voor veel mensen (althans zij die de technische know-how hebben) aantrekkelijk om ook mee te experimenteren, het uit te breiden, en na te kijken op mogelijke fouten. Veiligheidsfouten kunnen door iedereen opgemerkt worden en geraporteerd worden, in tegenstelling tot projecten waar de broncode niet beschikbaar is: dezelfde soort fouten zijn er, ze zijn alleen niet onmiddellijk vindbaar, maar ze bestaan wel, en kunnen ook op andere manieren ontdekt worden.

De Linux Kernel is een speciaal geval dat vrij veel kennis nodig heeft over processorarchitectuur (en is dus niet volledig toegankelijk, omdat er een grote voorkennis nodig is om deze te begrijpen), maar er zijn ook andere projecten die dit niet hebben. Een kijkje nemen naar GitHub (https://github.com/explore) laat al een hele hoop open source projecten zien. Op deze website vindt je tal van projecten: vaak eenmansprojecten, of kleine projecten. Maar ook grotere open source projecten die door onafhankelijk teams gemaakt zijn. Zelfs bedrijven als Microsoft, Adobe als IBM delen bepaalde onderdelen van hun broncode (al is het misschien eerder om op die platformen ook zichtbaar te zijn).

Net omdat deze broncode zo open beschikbaar is, maakt dit het voor veel mensen mogelijk om zelf er ook eens naar te kijken. Hetzelfde is in mijn ogen ook mogelijk met open data: als meer mensen de data kunnen bekijken, dan zullen meer mensen dat ook doen. Gevolg: data die meer betrouwbaar is, en misschien ook meer interesse in bepaalde velden door toekomstige studenten.

Maar de privacyproblemen zijn er eigenlijk nu ook al? Data wordt al uitgewisseld maar dit is zelden transparant, maar omdat met open science het verspreiden van data nog meer aangemoedigd wordt, dan vrees ik dat heel deze issue groter gaat worden dan dat het nu is.

Misschien ben ik gewoon paranoia? Misschien wordt het probleem helemaal niet zo groot als ik er nu over beweer, maar misschien is mijn visie gewoon te hard beïnvloed door mijn aparte manier om over data te beredeneren wegens mijn studierichting. Ik zie namelijk alles in nullen en eentjes.

Dus probeer ik mijn visie toe te lichten bij enkele mensen, met name de teamgenoten voor Redelijk Eigenzinnig. Aangezien zij een andere kijk hebben op "data", begrijp ik de verschillen in vraagtekens die we hebben bij open science. Ik probeer het even kort toe te lichten met een nieuw voorbeeld dat ik ook tijdens het intervisiemoment heb uitgelegd. Zo'n groot probleem is het toch niet dat je geboortedatums vermeld bij je onderzoek? Misschien zijn er wel verschillen tussen twintigers en dertigers over hun werkervaring. En misschien ook het geslacht? Want misschien voelen mannen zich op hun werk anders dan vrouwen? En we willen ook weten waar iemand woont, daar is toch niets mis mee? Die data kan namelijk best wel handig zijn om een verschil te ontdekken tussen mensen die meer landelijk wonen, of meer stedelijk. Maar we willen niet té specifiek zijn, dus gebruiken we hiervoor de postcode...

Ik kijk opnieuw naar Blown to Bits en ik vindt daarbij een bepaalde bewering: "[G]ender, zip code, and date of birth are all it takes to identify 87% of the U.S. population uniquely.", dat zijn net de elementen die we in ons onderzoek gebruiken om een beter idee te krijgen over de leefomgeving van de personen die meewerken aan het onderzoek.

Bepaalde data weglaten kan er misschien voor zorgen dat de data onvolledig is, of zelfs niet meer betrouwbaar, of de afgeleide data die gebruikt is voor conclusies te maken, niet meer afgeleid kan worden.

Als dezelfde persoon meermaals verschillende onafhankelijke onderzoeken voorziet van onderzoeksdata, en bij het ene onderzoek over zijn werk praat, en het andere onderzoek kan misschien naar zijn medische geschiedenis data verzameld hebben, dan kunnen we een heel goed beeld krijgen van wie deze persoon is, wat zijn gewoontes zijn en hoe hij zich voelt. Misschien zien we zelfs verbanden in de aangeleverde data die we in een nieuw onderzoek kunnen samenbrengen.

Natuurlijk is privacy niet het enige waarbij vraagtekens gezet konden worden. De vergelijking met social network sites wordt snel gemaakt: wat als een bepaalde website die een peiler van open science faciliteert offline gaat? Gaat er dan kennis verloren? Onderzoeken kunnen natuurlijk altijd op de lokale computer blijven van de onderzoeker(s), maar als we zo afhankelijk worden van deze platformen, en de toekomst meer naar cloud computing gaat, gaat de risico op verlies van onderzoek wel anders verdeeld worden. Dit vond ik zelf ook een heel belangrijke vraag.

In groep zijn we tot de conclusie gekomen om open science op een manier te gaan vergelijken met social network sites. Maar natuurlijk niet alleen op het privacy-aspect (wat bij mij initieel de meeste vraagtekens had). Net omdat er een oligopolie ontstaat bij bepaalde platformen gaan zij meer macht krijgen. Die macht kan voordelig zijn, maar ook nadelig.

Platformen die meer macht hebben kunnen dit benutten door maatschappelijk relevante onderzoeken en onderzoeksdata eerder zichtbaar te maken. Maar daar zit ook onmiddellijk het addertje onder het gras: zij bepalen wat onmiddellijk zichtbaar is. Ze moeten niet bepaalde inhoud achter een betaalmuur zetten, of op een verborgen pagina. De eerste artikels die zichtbaar zijn moeten op een bepaalde manier bepaald worden. Zo kan er voor een bepaalde onderzoeker alleen maar artikels getoond worden in zijn onderzoeksdomein. Maar ondermijnt dit op een bepaalde manier niet het interdisciplinair denken?

Wat gebeurt er als bepaalde platformen meer dan 90% gebruikt worden? Wat als dit platform opeens verdwijnt? Dit kan door een technisch probleem zijn, of misschien wordt de stekker letterlijk uit het platform gehaald door het wegvallen van funding, of het verliezen van belangrijke personen in het team achter het platform. Als een platform verdwijnt? Hoe vermijden we dat er dan kennis verloren gaat?

Mijn visie is redelijk onveranderd gebleven, zeker na het debat. Het debat was zeker interessant om te volgen. De problemen in verand met funding van onderzoeksprojecten (met name projecten die met publiek geld, belastingsgeld, gefund worden) is iets waar ik zelf nog niet bij stilgestaan had. Nochtans is dit ook een belangrijk onderdeel van open science. Maar persoonlijk vond ik het heel spijtig dat het debat voornamelijk over "funding" van onderzoeken ging, en minder over de relatie tussen funding en open science zelf.

De link met de lezing en het debat was voor mij een beetje zoek. Via mijn groepsleden heb ik open science ook eens op een andere manier kunnen bekijken, en dat is natuurlijk heel leerzaam.

Door de lezing heb ik nu een beter idee hoe "aan wetenschappelijk onderzoek doen" en "technologie" elkaar kunnen helpen. Door digitale platformen op te richten gaat de communicatie tussen wetenschappers aanzienlijk sneller, en zijn er ook meer mogelijkheden om aan onderzoek te doen buiten alleen maar communicatie. Data kan in veel gevallen online verzameld worden (en zeker met The Internet of Things). Het is belangrijk dat bij de ontwikkeling van apparaten er hier rekening mee kan gehouden worden dat data verzameld kan worden, en zelfs de mogelijkheid te voorzien om dit voor de gebruiker uitschakelbaar te maken.

Het debat heeft mij een beter idee gegeven over de huidige problemen die er aanwezig zijn in de wetenschappelijke wereld. Met name de funding, en hoeveel tijd er verloren wordt door juiste voorstellen te schrijven en te wachten op een resultaat. Veel onderzoeken worden niet (of later) uitgevoerd omdat het budget niet beschikbaar is en dat is best wel jammer.

Ook vind ik het hele idee van open science best wel ambitieus, het is wel een mooi voorbeeld van hoe technologieën die uit onder andere computerwetenschappen zijn voortgevloeid, andere wetenschap kunnen ondersteunen, als is het maar als hulpmiddel. Een beter voorbeeld voor interdisciplinaire samenwerking kan je bijna niet verzinnen.


Referentie: Blown to Bits, H. Lewis, K. Ledeen, H. Abelson – Vrij beschikbaar op http://www.bitsbook.com/excerpts/.

Reacties op "De invloed van Open Data op de privacy en waarom Open Science ook vrij moet zijn..."

Nog geen reacties, waarom laat je er geen achter?

Laat een reactie achter

Naam: Bericht: Bewijs dat je geen robot bent: