Controleer de datakwaliteit
dat-01Dataverkenning en datapreparatieOntwikkelaarData
Maatregel
Stel vast of de gebruikte data van voldoende kwaliteit is voor de beoogde toepassing.
Toelichting
- Stel functionele eisen voor de datakwaliteit vast en analyseer structureel of er aan deze eisen wordt voldaan.
- De kwaliteit van de data die als input voor het algoritme wordt gebruikt is bepalend voor de uitkomsten van het algoritme. Hier wordt soms ook naar gerefereerd als garbage in = garbage out.
- Een vraag die gesteld dient te worden: beschrijft de data het fenomeen dat onderzocht dient te worden? Oftewel: is de data representatief voor de doelpopulatie?
-
Het Raamwerk gegevenskwaliteit bevat een breed toepasbare set van kwaliteitsdimensies:
- juistheid
- compleetheid
- validiteit
- consistentie
- actualiteit
- precisie
- plausibiliteit
- traceerbaarheid
- begrijpelijkheid
Deze dimensies zijn aangevuld met kwaliteitsattributen welke gebruikt kunnen worden om de verschillende dimensies meetbaar te maken.
-
De vraag of de data kwaliteit voldoende is, hangt sterk samen met de vraag of er bias in de onderliggende data zit. Analyseer daarom ook welke bias en aannames er besloten zijn in de onderliggende data. Denk hierbij onder andere aan de volgende vormen van bias:
-
Zorg dat je data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) is.
-
Bepaal of de data voldoende representatief is voor de doelpopulatie en of de data voldoende representatief is voor eventuele relevante subgroepen uit de productiedata.
Let op!
Wanneer je een algoritme inkoopt en de ontwikkeling van het algoritme uitbesteedt aan een derde partij, houdt er dan dan rekening mee dat data traceerbaar en reproduceerbaar moet zijn. Maak hier heldere afspraken over met de aanbieder.
Risico
- Door onjuiste beslissingen van gegevens kunnen verkeerde beslissingen genomen worden.
- Het model creëert onwenselijke systematische afwijking voor specifieke personen, groepen of andere eenheden. Dit kan leiden tot ongelijke behandeling en discriminerende effecten met eventuele schade voor betrokkenen.
Bijbehorende vereiste(n)
Bronnen
- Onderzoekskader Algoritmes Auditdienst Rijk, DM.7, DM.9, DM.19
- Toetsingskader Algoritmes, Algemene Rekenkamder, 2.18
- NORA, Raamwerk gegevenskwaliteit
- Impact Assessment Mensenrechten en Algoritmes, 2A.2.2
- Handreiking non-discriminatie by design
- Norm: "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 2: Data quality measures"
Voorbeelden
Voorbeeld: Gemeente Rotterdam - Avola
In de Gemeente Rotterdam wordt gebruik gemaakt van een ondersteunend advies algoritme voor een toetsing voor recht op een uitkering, Avola. Dit algoritme maakt gebruik van beslisregels gebaseerd op wet- en regelgeving waarmee een advies aan een consulent van Werk en Inkomen gegeven wordt. De data waarop dit advies gebaseerd is, wordt gedeeltelijk door de burger zelf aangeleverd.
In het rapport van de Rekenkamer Rotterdam “Kleur bekennen” wordt aangegeven dat er bij het gebruik van Avola ook aandacht is voor de kwaliteit van de gebruikte data. Deze data wordt tijdens het aanvraagproces gecontroleerd door zowel de burger als consulent. Hierbij wordt op onjuistheden getoetst voordat de data gebruikt wordt. Dit zou verder verbeterd kunnen worden door duidelijk aan te geven hoe de gegevens worden gecontroleerd.
Bron: Kleur bekennen
Heb je een ander voorbeeld of best practice, laat het ons weten via algoritmes@minbzk.nl