Ga naar inhoud

Verantwoord datagebruik

Overheden moeten verantwoord omgaan met de data die hun algoritmes gebruiken. De data moet voldoen aan regels voor bijvoorbeeld privacy. De kwaliteit van de data moet goed zijn. En overheden moeten deze gegevens goed beheren. Anders is het algoritme niet betrouwbaar.

Wat is verantwoord datagebruik?

Verantwoord datagebruik betekent:

  • Rechtmatig gebruik van gegevens
  • Goede datakwaliteit
  • Goed databeheer

Rechtmatig gebruik van data

Net als organisaties mogen algoritmes niet zomaar gegevens verzamelen en gebruiken. Dit moet rechtmatig gebeuren: volgens de wettelijke regels. Zo moet je rekening houden met auteursrechten. Ook vóórdat het algoritme in gebruik is, moet je rechtmatig omgaan met data. Dus tijdens het trainen, valideren en testen.

Andere belangrijke regels gaan over privacy. Zo mag je algoritme alleen de minimale persoonsgegevens gebruiken die nodig zijn om het doel te bereiken. Technieken om dit te doen zijn:

  • Anonimiseren: data zoveel mogelijk anoniem maken
  • Pseudonimiseren: data moeilijker herleidbaar maken naar personen
  • Aggregeren: data zoveel mogelijk combineren of samenvoegen tot 1 waarde, zoals een totaal of gemiddelde

Goede datakwaliteit

Hoe slechter de datakwaliteit, hoe onbetrouwbaarder de uitkomsten van je algoritme.

Je bepaalt en controleert zelf de kwaliteit van je dataset. Check bijvoorbeeld of alle gegevens juist, compleet en actueel zijn. En herken bias in je data.

Goed databeheer: datagovernance en datamanagement

Goed databeheer betekent dat je organisatie duidelijke afspraken maakt over het:

  • opslaan en verwerken van data
  • gebruik van data: welke data mag je waarvoor gebruiken?
  • beveiligen van data
  • bewaken van de datakwaliteit, zoals het actueel houden van de gegevens
  • eigenaarschap van data, bijvoorbeeld de partij die het algoritme ontwikkelt
  • documenteren en labelen van data (metadata)

Leg de processen en afspraken hierover vast in de datagovernance van je organisatie. In een datamanagementstrategie beschrijf je hoe je organisatie data verzamelt, ordent en gebruikt. Zo kan je organisatie optimaal gebruikmaken van data.

Hoe goed je organisatie data beheert, check je met datavolwassenheidsmodellen uit de Toolbox verantwoord datagebruik van de Interbestuurlijke Datastrategie (IBDS). Of gebruik de beslishulp datavolwassenheid.

Belang van verantwoord datagebruik

Algoritmes kunnen veel schade veroorzaken in de maatschappij als ze de verkeerde gegevens gebruiken.

Met verantwoord datagebruik voorkom je:

  • verkeerde beslissingen doordat je algoritme resultaten baseert op data van slechte kwaliteit
  • discriminerende effecten van algoritmes doordat je data bias bevat
  • lekken van privacygevoelige informatie, zoals persoonsgegevens
  • gebruik van data die niet rechtenvrij zijn, zoals teksten met auteursrechten
  • dat resultaten niet te reproduceren zijn, doordat de data niet goed is opgeslagen

Bescherming van cruciale infrastructuurdata

Niet alleen persoonsgegevens, maar ook gegevens over de Nederlandse infrastructuur vragen om verantwoord datagebruik. Dit omvat zowel fysieke infrastructuur, zoals wegen, bruggen, tunnels en energievoorzieningen, als digitale infrastructuur, zoals datakabels en datacentra.

Het ongecontroleerd delen of gebruiken van deze gegevens, bijvoorbeeld voor het trainen van buitenlandse AI-toepassingen, kan risico’s opleveren voor de nationale veiligheid en de continuïteit van vitale systemen. Overheden en organisaties moeten deze data goed beveiligen en duidelijke kaders opstellen om verantwoord gebruik te waarborgen.

Vereisten

idVereisten
aia-05Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria
aia-33AI-testomgevingen die persoonsgegevens verwerken, voldoen aan strenge voorwaarden.
arc-01Informatie over algoritmes wordt in goede, geordende en toegankelijke staat gebracht, bewaard en vernietigd wanneer nodig.
aut-01Auteursrechten zijn beschermd.
avg-09Betrokkenen kunnen een beroep doen op hun privacyrechten.
dat-01Databanken worden alleen gebruikt met toestemming van de databank-producent.

Aanbevolen maatregelen

idMaatregelen
owp-11Voer voorafgaand aan een project een data beschikbaarheid, kwaliteit- en toegankelijkheidsanalayse uit.
owp-11Beschrijf welke data gebruikt wordt voor de beoogde toepassing
owp-19Laat aanbieder(s) bewijs leveren dat de door hen ontwikkelde algoritmes geen inbreuk maken op de auteursrechten van derden met de trainingsdata en de output.
owp-36Voorkom kwetsbaarheden die geïntroduceerd worden in de supply-chain van het algoritme.
dat-01Controleer de datakwaliteit
dat-02Maak waardevolle data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) binnen en buiten de eigen organisatie.
dat-05Controleer de auteursrechten van eigen data
dat-07Gebruik bij machine learning technieken gescheiden train-, test- en validatiedata en houdt rekening met underfitting en overfitting.
dat-08Zorg dat je controle of eigenaarschap hebt over de data
dat-09Beperk de omvang van datasets voor energie-efficiëntie
dat-11Controleer de data op manipulatie en ongewenste afhankelijkheden
dat-12Controleer de input van gebruikers op misleiding
imp-11Spreek af hoe de organisatie omgaat met privacy-verzoeken
mon-05Monitor regelmatig op veranderingen in de data. Bij veranderingen evalueer je de prestaties en output van het algoritme.

Hulpmiddelen