Ga naar inhoud

Controleer de datakwaliteit

dat-01Dataverkenning en datapreparatieOntwikkelaarData

Maatregel

Stel vast of de gebruikte data van voldoende kwaliteit is voor de beoogde toepassing.

Toelichting

  • Stel functionele eisen voor de datakwaliteit vast en analyseer structureel of er aan deze eisen wordt voldaan.
  • De kwaliteit van de data die als input voor het algoritme wordt gebruikt is bepalend voor de uitkomsten van het algoritme. Hier wordt soms ook naar gerefereerd als garbage in = garbage out.
  • Een vraag die gesteld dient te worden: beschrijft de data het fenomeen dat onderzocht dient te worden? Oftewel: is de data representatief voor de doelpopulatie?
  • Het Raamwerk gegevenskwaliteit bevat een breed toepasbare set van kwaliteitsdimensies:

    • juistheid
    • compleetheid
    • validiteit
    • consistentie
    • actualiteit
    • precisie
    • plausibiliteit
    • traceerbaarheid
    • begrijpelijkheid

    Deze dimensies zijn aangevuld met kwaliteitsattributen welke gebruikt kunnen worden om de verschillende dimensies meetbaar te maken.

  • De vraag of de data kwaliteit voldoende is, hangt sterk samen met de vraag of er bias in de onderliggende data zit. Analyseer daarom ook welke bias en aannames er besloten zijn in de onderliggende data. Denk hierbij onder andere aan de volgende vormen van bias:

  • Zorg dat je data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) is.

  • Bepaal of de data voldoende representatief is voor de doelpopulatie en of de data voldoende representatief is voor eventuele relevante subgroepen uit de productiedata.

Let op!

Wanneer je een algoritme inkoopt en de ontwikkeling van het algoritme uitbesteedt aan een derde partij, houdt er dan dan rekening mee dat data traceerbaar en reproduceerbaar moet zijn. Maak hier heldere afspraken over met de aanbieder.

Risico

  • Door onjuiste beslissingen van gegevens kunnen verkeerde beslissingen genomen worden.
  • Het model creëert onwenselijke systematische afwijking voor specifieke personen, groepen of andere eenheden. Dit kan leiden tot ongelijke behandeling en discriminerende effecten met eventuele schade voor betrokkenen.

Bijbehorende vereiste(n)

Bekijk alle vereisten
Vereiste
avg-05 - Persoonsgegevens zijn juist en actueel
aia-05 - Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria

Bronnen

Voorbeelden

Voorbeeld: Gemeente Rotterdam - Avola

In de Gemeente Rotterdam wordt gebruik gemaakt van een ondersteunend advies algoritme voor een toetsing voor recht op een uitkering, Avola. Dit algoritme maakt gebruik van beslisregels gebaseerd op wet- en regelgeving waarmee een advies aan een consulent van Werk en Inkomen gegeven wordt. De data waarop dit advies gebaseerd is, wordt gedeeltelijk door de burger zelf aangeleverd.

In het rapport van de Rekenkamer Rotterdam “Kleur bekennen” wordt aangegeven dat er bij het gebruik van Avola ook aandacht is voor de kwaliteit van de gebruikte data. Deze data wordt tijdens het aanvraagproces gecontroleerd door zowel de burger als consulent. Hierbij wordt op onjuistheden getoetst voordat de data gebruikt wordt. Dit zou verder verbeterd kunnen worden door duidelijk aan te geven hoe de gegevens worden gecontroleerd.

Bron: Kleur bekennen

Heb je een ander voorbeeld of best practice, laat het ons weten via algoritmes@minbzk.nl