Ga naar inhoud

Verantwoord datagebruik

Overheden moeten verantwoord omgaan met de data die hun algoritmes gebruiken. De data moet voldoen aan regels voor bijvoorbeeld privacy. De kwaliteit van de data moet goed zijn. En overheden moeten deze gegevens goed beheren. Anders is het algoritme niet betrouwbaar.

Wat is verantwoord datagebruik?

Verantwoord datagebruik betekent:

  • Rechtmatig gebruik van gegevens
  • Goede datakwaliteit
  • Goed databeheer

Rechtmatig gebruik van data

Net als organisaties mogen algoritmes niet zomaar gegevens verzamelen en gebruiken. Dit moet rechtmatig gebeuren: volgens de wettelijke regels. Zo moet je rekening houden met auteursrechten. Ook vóórdat het algoritme in gebruik is, moet je rechtmatig omgaan met data. Dus tijdens het trainen, valideren en testen.

Andere belangrijke regels gaan over privacy. Zo mag je algoritme alleen de minimale persoonsgegevens gebruiken die nodig zijn om het doel te bereiken. Technieken om dit te doen zijn:

  • Anonimiseren: data zoveel mogelijk anoniem maken
  • Pseudonimiseren: data moeilijker herleidbaar maken naar personen
  • Aggregeren: data zoveel mogelijk combineren of samenvoegen tot 1 waarde, zoals een totaal of gemiddelde

Goede datakwaliteit

Hoe slechter de datakwaliteit, hoe onbetrouwbaarder de uitkomsten van je algoritme.

Je bepaalt en controleert zelf de kwaliteit van je dataset. Check bijvoorbeeld of alle gegevens juist, compleet en actueel zijn. En herken bias in je data.

Goed databeheer: datagovernance en datamanagement

Goed databeheer betekent dat je organisatie duidelijke afspraken maakt over het:

  • opslaan en verwerken van data
  • gebruik van data: welke data mag je waarvoor gebruiken?
  • beveiligen van data
  • bewaken van de datakwaliteit, zoals het actueel houden van de gegevens
  • eigenaarschap van data, bijvoorbeeld de partij die het algoritme ontwikkelt
  • documenteren en labelen van data (metadata)

Leg de processen en afspraken hierover vast in de datagovernance van je organisatie. In een datamanagementstrategie beschrijf je hoe je organisatie data verzamelt, ordent en gebruikt. Zo kan je organisatie optimaal gebruikmaken van data.

Hoe goed je organisatie data beheert, check je met datavolwassenheidsmodellen uit de Toolbox verantwoord datagebruik van de Interbestuurlijke Datastrategie (IBDS). Of gebruik de beslishulp datavolwassenheid.

Belang van verantwoord datagebruik

Algoritmes kunnen veel schade veroorzaken in de maatschappij als ze de verkeerde gegevens gebruiken.

Met verantwoord datagebruik voorkom je:

  • verkeerde beslissingen doordat je algoritme resultaten baseert op data van slechte kwaliteit
  • discriminerende effecten van algoritmes doordat je data bias bevat
  • lekken van privacygevoelige informatie, zoals persoonsgegevens
  • gebruik van data die niet rechtenvrij zijn, zoals teksten met auteursrechten
  • dat resultaten niet te reproduceren zijn, doordat de data niet goed is opgeslagen

Bescherming van cruciale infrastructuurdata

Niet alleen persoonsgegevens, maar ook gegevens over de Nederlandse infrastructuur vragen om verantwoord datagebruik. Dit omvat zowel fysieke infrastructuur, zoals wegen, bruggen, tunnels en energievoorzieningen, als digitale infrastructuur, zoals datakabels en datacentra.

Het ongecontroleerd delen of gebruiken van deze gegevens, bijvoorbeeld voor het trainen van buitenlandse AI-toepassingen, kan risico’s opleveren voor de nationale veiligheid en de continuïteit van vitale systemen. Overheden en organisaties moeten deze data goed beveiligen en duidelijke kaders opstellen om verantwoord gebruik te waarborgen.

Vereisten

idVereisten
aia-05Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria
aia-33AI-testomgevingen die persoonsgegevens verwerken, voldoen aan strenge voorwaarden
arc-01Informatie over algoritmes wordt in goede, geordende en toegankelijke staat gebracht, bewaard en vernietigd wanneer nodig
aut-01Auteursrechten zijn beschermd
avg-09Betrokkenen kunnen een beroep doen op hun privacyrechten
dat-01Databanken worden alleen gebruikt met toestemming van de databank-producent

Aanbevolen maatregelen

idMaatregelen
owp-02Voer voorafgaand aan een project een data beschikbaarheid, kwaliteit- en toegankelijkheidsanalayse uit
owp-11Beschrijf welke data gebruikt wordt voor de beoogde toepassing
owp-18Laat aanbieder(s) bewijs leveren dat de door hen ontwikkelde algoritmes geen inbreuk maken op de auteursrechten van derden met de trainingsdata en de output
owp-34Voorkom kwetsbaarheden die geïntroduceerd worden in de supply-chain van het algoritme
dat-01Controleer de datakwaliteit
dat-02Toets en analyseer of de inputvariabelen of risicoindicatoren geschikt zijn voor het beoogde algoritme
dat-05Controleer de auteursrechten van eigen data
dat-07Gebruik bij machine learning technieken gescheiden train-, test- en validatiedata en houd rekening met underfitting en overfitting
dat-08Zorg dat je controle of eigenaarschap hebt over de data
dat-09Beperk de omvang van datasets voor energie-efficiëntie
dat-10Controleer de data op manipulatie en ongewenste afhankelijkheden
dat-11Controleer de input van gebruikers op misleiding
dat-12Maak waardevolle data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) binnen en buiten de eigen organisatie
owk-12Gebruik een passende licentie bij publicatie of gebruik van (open) data
imp-10Spreek af hoe de organisatie omgaat met privacy-verzoeken
mon-05Monitor regelmatig op veranderingen in de data. Bij veranderingen evalueer je de prestaties en output van het algoritme.

Hulpmiddelen