Ga naar inhoud

Verantwoord datagebruik

Overheden moeten verantwoord omgaan met de data die hun algoritmes gebruiken. De data moet voldoen aan regels voor bijvoorbeeld privacy. De kwaliteit van de data moet goed zijn. En overheden moeten deze gegevens goed beheren. Anders is het algoritme niet betrouwbaar.

Wat is verantwoord datagebruik?

Verantwoord datagebruik betekent:

  • Rechtmatig gebruik van gegevens
  • Goede datakwaliteit
  • Goed databeheer

Rechtmatig gebruik van data

Net als organisaties mogen algoritmes niet zomaar gegevens verzamelen en gebruiken. Dit moet rechtmatig gebeuren: volgens de wettelijke regels. Zo moet je rekening houden met auteursrechten. Ook vóórdat het algoritme in gebruik is, moet je rechtmatig omgaan met data. Dus tijdens het trainen, valideren en testen.

Andere belangrijke regels gaan over privacy. Zo mag je algoritme alleen de minimale persoonsgegevens gebruiken die nodig zijn om het doel te bereiken. Technieken om dit te doen zijn:

  • Anonimiseren: data zoveel mogelijk anoniem maken
  • Pseudonimiseren: data moeilijker herleidbaar maken naar personen
  • Aggregeren: data zoveel mogelijk combineren of samenvoegen tot 1 waarde, zoals een totaal of gemiddelde

Goede datakwaliteit

Hoe slechter de datakwaliteit, hoe onbetrouwbaarder de uitkomsten van je algoritme.

Je bepaalt en controleert zelf de kwaliteit van je dataset. Check bijvoorbeeld of alle gegevens juist, compleet en actueel zijn. En herken bias in je data.

Goed databeheer: datagovernance en datamanagement

Goed databeheer betekent dat je organisatie duidelijke afspraken maakt over het:

  • opslaan en verwerken van data
  • gebruik van data: welke data mag je waarvoor gebruiken?
  • beveiligen van data
  • bewaken van de datakwaliteit, zoals het actueel houden van de gegevens
  • eigenaarschap van data, bijvoorbeeld de partij die het algoritme ontwikkelt
  • documenteren en labelen van data (metadata)

Leg de processen en afspraken hierover vast in de datagovernance van je organisatie. In een datamanagementstrategie beschrijf je hoe je organisatie data verzamelt, ordent en gebruikt. Zo kan je organisatie optimaal gebruikmaken van data.

Hoe goed je organisatie data beheert, check je met datavolwassenheidsmodellen uit de Toolbox verantwoord datagebruik van de Interbestuurlijke Datastrategie (IBDS). Of gebruik de beslishulp datavolwassenheid.

Belang van verantwoord datagebruik

Algoritmes kunnen veel schade veroorzaken in de maatschappij als ze de verkeerde gegevens gebruiken.

Met verantwoord datagebruik voorkom je:

  • verkeerde beslissingen doordat je algoritme resultaten baseert op data van slechte kwaliteit
  • discriminerende effecten van algoritmes doordat je data bias bevat
  • lekken van privacygevoelige informatie, zoals persoonsgegevens
  • gebruik van data die niet rechtenvrij zijn, zoals teksten met auteursrechten
  • dat resultaten niet te reproduceren zijn, doordat de data niet goed is opgeslagen

Vereisten

idVereisten
aia-05Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria
aia-33AI-testomgevingen die persoonsgegevens verwerken, voldoen aan strenge voorwaarden.
arc-01Informatie over algoritmes wordt in goede, geordende en toegankelijke staat gebracht, bewaard en vernietigd wanneer nodig.
aut-01Auteursrechten zijn beschermd.
avg-09Betrokkenen kunnen een beroep doen op hun privacyrechten.
dat-01Databanken worden alleen gebruikt met toestemming van de databank-producent

Maatregelen

idMaatregelen
owp-11Voer voorafgaand aan een project een data beschikbaarheid, kwaliteit- en toegankelijkheidsanalayse uit.
owp-02Beschrijf welke data gebruikt wordt voor de beoogde toepassing
owp-16Laat aanbieder(s) bewijs leveren dat de door hen ontwikkelde algoritmes geen inbreuk maken op de auteursrechten van derden met de trainingsdata en de output.
dat-01Controleer de datakwaliteit
dat-02Maak waardevolle data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) binnen en buiten de eigen organisatie.
dat-06Controleer de auteursrechten van eigen data
dat-07Gebruik bij machine learning technieken gescheiden train-, test- en validatiedata en houdt rekening met underfitting en overfitting.
dat-08Zorg dat je controle of eigenaarschap hebt over de data
dat-09Beperk de omvang van datasets voor energie-efficiëntie
imp-06Spreek af hoe de organisatie omgaat met privacy-verzoeken
mon-04Monitor regelmatig op veranderingen in de data. Bij veranderingen evalueer je de prestaties en output van het algoritme.

Hulpmiddelen