Fase 3: Dataverkenning en datapreparatie

In deze fase verzamel en analyseer je de data die nodig zijn voor het ontwikkelen van het algoritme of AI-systeem. Je voert een dataverkenning uit, waarin je onderzoekt welke datasets geschikt zijn. Via datapreparatie maak je deze gegevens bruikbaar.

Belangrijke stappen

Het proces van data onderzoeken en voorbereiden bestaat in elk geval uit deze stappen:

vaststellen welke data geschikt en beschikbaar zijn
onderzoeken hoe je deze data rechtmatig gebruikt
verzamelen van de data
opschonen van de data
analyseren van de datakwaliteit

Ontstaan er risico's door bijvoorbeeld bias in de dataset, missende data of niet-representatieve data, dan onderzoek je het effect op het ontwerp van je algoritme of AI-systeem. Mogelijk moet je het ontwerp aanpassen.

Is je data van voldoende kwaliteit en ga je hier rechtmatig mee om, dan kun je het algoritme of AI-systeem (laten) ontwikkelen.

Tip

Vanaf deze fase blijf je de data analyseren, ook in alle volgende fases.

Vereisten dataverkenning en datapreparatie

Vereisten	Wetgeving
Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria	AI-verordening
Hoog-risico-AI-systemen zijn voorzien van voldoende technische documentatie	AI-verordening
AI-testomgevingen die persoonsgegevens verwerken, voldoen aan strenge voorwaarden	AI-verordening
Auteursrechten zijn beschermd	Auteursrecht
Persoonsgegevens worden op een rechtmatige manier verwerkt	AVG
Persoonsgegevens worden zo kort mogelijk bewaard	AVG
Persoonsgegevens worden zo min mogelijk verwerkt	AVG
Persoonsgegevens en andere data verwerken gebeurt proportioneel en subsidiair	AVG
Persoonsgegevens zijn juist en actueel	AVG
Organisaties kunnen bewijzen dat zij persoonsgegevens op de juiste manier verwerken	AVG
Gevoelige persoonsgegevens worden alleen gebruikt als hiervoor een wettelijke uitzondering geldt	AVG
Ontwerp en standaardinstellingen (defaults) zijn zo gunstig mogelijk voor de privacy van betrokkenen	AVG
Een gegevensbeschermingseffectbeoordeling (DPIA) is verplicht, indien een verwerking van persoonsgegevens waarschijnlijk een hoog risico inhoudt voor de rechten en vrijheden van natuurlijke personen	AVG
Databanken worden alleen gebruikt met toestemming van de databank-producent	Databankenwet

Aanbevolen maatregelen dataverkenning en datapreparatie

Maatregelen
Beschrijf voor welk doel het algoritme persoonsgegevens gebruikt en waarom dit mag
Beschrijf welke data gebruikt wordt voor de beoogde toepassing
Laat aanbieder(s) bewijs leveren dat de door hen ontwikkelde algoritmes geen inbreuk maken op de auteursrechten van derden met de trainingsdata en de output
Controleer de datakwaliteit
Toets en analyseer of de inputvariabelen of risicoindicatoren geschikt zijn voor het beoogde algoritme
Bescherm persoonsgegevens door data te anonimiseren, pseudonimiseren of te aggregeren
Controleer de auteursrechten van eigen data
Gebruik duurzame datacenters
Gebruik bij machine learning technieken gescheiden train-, test- en validatiedata en houd rekening met underfitting en overfitting
Zorg dat je controle of eigenaarschap hebt over de data
Beperk de omvang van datasets voor energie-efficiëntie
Controleer de data op manipulatie en ongewenste afhankelijkheden
Controleer de input van gebruikers op misleiding
Maak waardevolle data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) binnen en buiten de eigen organisatie
Gebruik een passende licentie bij publicatie of gebruik van (open) data
Doe aselecte steekproeven om algoritmes met 'risicogestuurde selectie’ te controleren
Beveilig de software

Help ons deze pagina te verbeteren

Deel je idee, suggestie of opmerking via GitHub of mail ons via algoritmes@minbzk.nl.