Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria

aia-05Dataverkenning en datapreparatieVerificatie en validatieProjectleiderOntwikkelaarData

Vereiste

AI-systemen met een hoog risico die technieken gebruiken die het trainen van AI-modellen met data omvatten, worden ontwikkeld op basis van datasets voor training, validatie en tests die voldoen aan de kwaliteitscriteria telkens wanneer dergelijke datasets worden gebruikt.

Toelichting

AI-systemen met een hoog risico die data gebruiken voor het trainen van AI-modellen, moeten gebaseerd zijn op datasets die voldoen aan specifieke kwaliteitscriteria.

Deze criteria zorgen ervoor dat de data geschikt zijn voor training, validatie en tests, wat de betrouwbaarheid en nauwkeurigheid van het AI-systeem waarborgt. De kwaliteitscriteria zijn te vinden in leden 2 t/m 5 van artikel 10 van de AI-verordening. Bijvoorbeeld datasets moeten aan praktijken voor databeheer voldoen en moeten relevant, representatief, accuraat en volledig zijn.

Deze vereiste houdt in dat de gebruikte datasets onder meer moeten voldoen aan:

datasets voor training, validatie en tests worden onderworpen aan praktijken op het gebied van databeheer die stroken met het beoogde doel van het AI-systeem met een hoog risico. Dit heeft in het bijzonder betrekking op relevante ontwerpkeuzes, processen voor dataverzameling, verwerkingsactiviteiten voor datavoorbereiding, het opstellen van aannames met name betrekking tot de informatie die de data moeten meten en vertegenwoordigen, beschikbaarheid, kwantiteit en geschiktheid van de datasets en een beoordeling op mogelijke vooringenomenheid en passende maatregelen om deze vooringenomenheid op te sporen, te voorkomen en te beperken.
datasets voor training, validatie en tests zijn relevant, voldoende representatief en zoveel mogelijk foutenvrij en volledig met het oog op het beoogde doel.
Er wordt rekening gehouden met de eigenschappen of elementen die specifiek zijn voor een bepaalde geografische, contextuele, functionele of gedragsomgeving waarin het AI-systeem wordt gebruikt.

Bronnen

Artikel 10(1) Verordening Artificiële Intelligentie

Van toepassing op

Deze vereiste is van toepassing voor onderstaande (combinatie van) labels. Gebruik de beslishulp AI-verordening voor hulp bij wat er in jouw situatie van toepassing is.

AI-systeemAI-systeem voor algemene doeleindenHoog risico AI-systeemAanbiederGeen transparantieverplichtingTransparantieverplichting

Risico

Gebruik van laagkwalitatieve of bevooroordeelde datasets kan leiden tot onbetrouwbare en oneerlijke AI-besluitvorming. Onvoldoende kwaliteitsborging van testdata kan leiden tot vertekende resultaten en gebrekkige prestaties van het AI-systeem bij gebruik in de praktijk.

Maatregelen

Maatregelen
Voer voorafgaand aan een project een data beschikbaarheid, kwaliteit- en toegankelijkheidsanalayse uit
Beschrijf welke data gebruikt wordt voor de beoogde toepassing
Bespreek de vereisten die gelden voor een verantwoorde inzet van algoritmes met aanbieders
Maak vereisten voor algoritmes onderdeel van algemene inkoopvoorwaarden en de contractovereenkomst
Maak vereisten onderdeel van (sub)gunningscriteria bij een aanbesteding
Creëer ruimte om met een aanbieder samen te gaan werken om specifieke vereisten te realiseren
Neem het kunnen uitvoeren van een audit over de vereiste op in contractvoorwaarden en de contractovereenkomst
Maak vereisten onderdeel van het programma van eisen bij een aanbesteding
Maak vereisten voor algoritmes onderdeel van de Service Level Agreement
Maak (contractuele) afspraken over data en artefacten met een aanbieder
Pas vastgestelde interne beleidskaders toe en maak aantoonbaar dat deze zijn nageleefd bij het ontwikkelen, inkopen en gebruiken van algoritmes
Controleer de datakwaliteit
Zorg dat je controle of eigenaarschap hebt over de data
Gebruik een passende licentie bij publicatie of gebruik van (open) data
Toets het algoritme op bias en voer een rechtvaardigingstoets uit
Controleer regelmatig of het algoritme voldoet aan alle wetten en regels en het eigen beleid
Monitor regelmatig op veranderingen in de data. Bij veranderingen evalueer je de prestaties en output van het algoritme.