Controleer de datakwaliteit
dat-01Dataverkenning en datapreparatieOntwikkelaarData
Maatregel
Stel vast of de gebruikte data van voldoende kwaliteit is voor de beoogde toepassing.
Toelichting
-
Stel functionele eisen voor de datakwaliteit vast en analyseer structureel of er aan deze eisen wordt voldaan.
-
De kwaliteit van de data die als input voor het algoritme wordt gebruikt is bepalend voor de uitkomsten van het algoritme. Hier wordt soms ook naar gerefereerd als garbage in = garbage out.
- Een vraag die gesteld dient te worden: beschrijft de data het fenomeen dat onderzocht dient te worden?
-
Het Raamwerk gegevenskwaliteit bevat een breed toepasbare set van kwaliteitsdimensies:
- juistheid
- compleetheid
- validiteit
- consistentie
- actualiteit
- precisie
- plausibiliteit
- traceerbaarheid
- begrijpelijkheid
Deze dimensies zijn aangevuld met kwaliteitsattributen welke gebruikt kunnen worden om de verschillende dimensies meetbaar te maken.
-
De vraag of de data kwaliteit voldoende is, hangt sterk samen met de vraag of er bias in de onderliggende data zit. Analyseer daarom ook welke bias en aannames er besloten zijn in de onderliggende data. Denk hierbij onder andere aan de volgende vormen van bias:
-
Zorg dat je data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) is.
Let op!
Wanneer je een algoritme inkoopt en de ontwikkeling van het algoritme uitbesteedt aan een derde partij, houdt er dan dan rekening mee dat data traceerbaar en reproduceerbaar moet zijn. Maak hier heldere afspraken over met de aanbieder.
Bijbehorende vereiste(n)
Risico
- Door onjuiste beslissingen van gegevens kunnen verkeerde beslissingen genomen worden.
- Het model creëert onwenselijke systematische afwijking voor specifieke personen, groepen of andere eenheden. Dit kan leiden tot ongelijke behandeling en discriminerende effecten met eventuele schade voor betrokkenen.
Bronnen
- Onderzoekskader Algoritmes Auditdienst Rijk, DM.9, DM.19
- Toetsingskader Algoritmes, Algemene Rekenkamder, 2.18
- NORA, Raamwerk gegevenskwaliteit
- Impact Assessment Mensenrechten en Algoritmes, 2A.2.2
- Handreiking non-discriminatie by design
- Norm: "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 2: Data quality measures"
Voorbeeld
Heb jij een goed voorbeeld? Laat het ons weten!