Ga naar inhoud

Controleer de datakwaliteit

dat-01Dataverkenning en datapreparatieOntwikkelaarData

Maatregel

Stel vast of de gebruikte data van voldoende kwaliteit is voor de beoogde toepassing.

Toelichting

  • Stel functionele eisen voor de datakwaliteit vast en analyseer structureel of er aan deze eisen wordt voldaan.

  • De kwaliteit van de data die als input voor het algoritme wordt gebruikt is bepalend voor de uitkomsten van het algoritme. Hier wordt soms ook naar gerefereerd als garbage in = garbage out.

  • Een vraag die gesteld dient te worden: beschrijft de data het fenomeen dat onderzocht dient te worden?
  • Het Raamwerk gegevenskwaliteit bevat een breed toepasbare set van kwaliteitsdimensies:

    • juistheid
    • compleetheid
    • validiteit
    • consistentie
    • actualiteit
    • precisie
    • plausibiliteit
    • traceerbaarheid
    • begrijpelijkheid

    Deze dimensies zijn aangevuld met kwaliteitsattributen welke gebruikt kunnen worden om de verschillende dimensies meetbaar te maken.

  • De vraag of de data kwaliteit voldoende is, hangt sterk samen met de vraag of er bias in de onderliggende data zit. Analyseer daarom ook welke bias en aannames er besloten zijn in de onderliggende data. Denk hierbij onder andere aan de volgende vormen van bias:

  • Zorg dat je data vindbaar, toegankelijk, interoperabel en herbruikbaar (FAIR) is.

Let op!

Wanneer je een algoritme inkoopt en de ontwikkeling van het algoritme uitbesteedt aan een derde partij, houdt er dan dan rekening mee dat data traceerbaar en reproduceerbaar moet zijn. Maak hier heldere afspraken over met de aanbieder.

Bijbehorende vereiste(n)

Vereiste
avg-05 - Persoonsgegevens zijn juist en actueel
aia-05 - Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria

Risico

  • Door onjuiste beslissingen van gegevens kunnen verkeerde beslissingen genomen worden.
  • Het model creëert onwenselijke systematische afwijking voor specifieke personen, groepen of andere eenheden. Dit kan leiden tot ongelijke behandeling en discriminerende effecten met eventuele schade voor betrokkenen.

Bronnen

Voorbeeld

Heb jij een goed voorbeeld? Laat het ons weten!