Fase 3: Dataverkenning en datapreparatie

In deze fase worden relevante datasets geïdentificeerd en wanneer nodig wordt nieuwe data verzameld. In deze fase zal ook de ontwikkelomgeving (verder) worden ingericht indien nodig. Het is van belang dat voorafgaand aan verzameling is vastgesteld dat de benodigde data mag worden verwerkt en dat de juiste maatregelen worden getroffen, zodra de data kan worden verwerkt. Denk hierbij aan het anonimiseren, pseudonimiseren of aggregeren van persoonsgegevens. De data zullen vervolgens worden opgeschoond, geanalyseerd en voorbereid voor verdere verwerking.

Het is van belang dat dataverzameling op de juiste manier gebeurt, en dat datasets die gebruikt gaan worden van goede kwaliteit zijn. In deze fase is het van belang om de datakwaliteit en eventuele bias in de dataset te onderzoeken. Indien er risico's optreden door bijvoorbeeld missende data of niet representatieve data, is het belangrijk om te kijken wat voor effecten dit heeft op het oorspronkelijke ontwerp van het algoritme. Dit kan betekenen dat nieuwe keuzes moeten worden gemaakt in het ontwerp en eventueel eerst deze fase van ontwerp (deels) opnieuw moet worden doorlopen.

Met voorgaande handelingen wordt het fundament gelegd om het algoritme te kunnen ontwikkelen. In de praktijk zal bijvoorbeeld het analyseren van de data niet stoppen na deze fase, maar terugkerend zijn in alle fasen die volgen. Als de verzamelde data van voldoende kwaliteit is en de vereiste maatregelen zijn getroffen, dan kan worden gestart met het ontwikkelen van het algoritme.

Vereisten

id	Vereisten
aia-05	Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria
aia-06	Hoog-risico-AI-systemen zijn voorzien van voldoende technische documentatie
aia-33	AI-testomgevingen die persoonsgegevens verwerken, voldoen aan strenge voorwaarden
aut-01	Auteursrechten zijn beschermd
avg-01	Persoonsgegevens worden op een rechtmatige manier verwerkt
avg-02	Persoonsgegevens worden zo kort mogelijk bewaard
avg-03	Persoonsgegevens worden zo min mogelijk verwerkt
avg-04	Persoonsgegevens en andere data verwerken gebeurt proportioneel en subsidiair
avg-05	Persoonsgegevens zijn juist en actueel
avg-06	Organisaties kunnen bewijzen dat zij persoonsgegevens op de juiste manier verwerken
avg-08	Gevoelige persoonsgegevens worden alleen gebruikt als hiervoor een wettelijke uitzondering geldt
avg-11	Ontwerp en standaardinstellingen (defaults) zijn zo gunstig mogelijk voor de privacy van betrokkenen
avg-13	Een gegevensbeschermingseffectbeoordeling (DPIA) is verplicht, indien een verwerking van persoonsgegevens waarschijnlijk een hoog risico inhoudt voor de rechten en vrijheden van natuurlijke personen
dat-01	Databanken worden alleen gebruikt met toestemming van de databank-producent

Aanbevolen maatregelen

id	Maatregelen
owp-03	Beschrijf voor welk doel het algoritme persoonsgegevens gebruikt en waarom dit mag
owp-11	Beschrijf welke data gebruikt wordt voor de beoogde toepassing
owp-18	Laat aanbieder(s) bewijs leveren dat de door hen ontwikkelde algoritmes geen inbreuk maken op de auteursrechten van derden met de trainingsdata en de output
dat-01	Controleer de datakwaliteit
dat-02	Toets en analyseer of de inputvariabelen of risicoindicatoren geschikt zijn voor het beoogde algoritme
dat-04	Bescherm persoonsgegevens door data te anonimiseren, pseudonimiseren of te aggregeren
dat-05	Controleer de auteursrechten van eigen data
dat-06	Gebruik duurzame datacenters
dat-07	Gebruik bij machine learning technieken gescheiden train-, test- en validatiedata en houd rekening met underfitting en overfitting
dat-08	Zorg dat je controle of eigenaarschap hebt over de data
dat-09	Beperk de omvang van datasets voor energie-efficiëntie
dat-10	Controleer de data op manipulatie en ongewenste afhankelijkheden
dat-11	Controleer de input van gebruikers op misleiding
dat-12	Maak waardevolle data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) binnen en buiten de eigen organisatie
owk-12	Gebruik een passende licentie bij publicatie of gebruik van (open) data
imp-02	Doe aselecte steekproeven om algoritmes met 'risicogestuurde selectie’ te controleren
mon-02	Beveilig de software

Help ons deze pagina te verbeteren

Deel je idee, suggestie of opmerking via GitHub of mail ons via algoritmes@minbzk.nl.