Datasets voor hoog-risico-AI-systemen voldoen aan kwaliteitscriteria

aia-05Dataverkenning en datapreparatieVerificatie en validatieProjectleiderOntwikkelaarData

Vereiste

AI-systemen met een hoog risico die technieken gebruiken die het trainen van AI-modellen met data omvatten, worden ontwikkeld op basis van datasets voor training, validatie en tests die voldoen aan de kwaliteitscriteria telkens wanneer dergelijke datasets worden gebruikt.

Toelichting

AI-systemen met een hoog risico die data gebruiken voor het trainen van AI-modellen, moeten gebaseerd zijn op datasets die voldoen aan specifieke kwaliteitscriteria.

Deze criteria zorgen ervoor dat de data geschikt zijn voor training, validatie en tests, wat de betrouwbaarheid en nauwkeurigheid van het AI-systeem waarborgt. De kwaliteitscriteria zijn te vinden in leden 2 t/m 5 van artikel 10 van de AI-verordening. Bijvoorbeeld datasets moeten aan praktijken voor databeheer voldoen en moeten relevant, representatief, accuraat en volledig zijn.

Deze vereiste houdt in dat de gebruikte datasets onder meer moeten voldoen aan:

datasets voor training, validatie en tests worden onderworpen aan praktijken op het gebied van databeheer die stroken met het beoogde doel van het AI-systeem met een hoog risico. Dit heeft in het bijzonder betrekking op relevante ontwerpkeuzes, processen voor dataverzameling, verwerkingsactiviteiten voor datavoorbereiding, het opstellen van aannames met name betrekking tot de informatie die de data moeten meten en vertegenwoordigen, beschikbaarheid, kwantiteit en geschiktheid van de datasets en een beoordeling op mogelijke vooringenomenheid en passende maatregelen om deze vooringenomenheid op te sporen, te voorkomen en te beperken.
datasets voor training, validatie en tests zijn relevant, voldoende representatief en zoveel mogelijk foutenvrij en volledig met het oog op het beoogde doel.
Er wordt rekening gehouden met de eigenschappen of elementen die specifiek zijn voor een bepaalde geografische, contextuele, functionele of gedragsomgeving waarin het AI-systeem wordt gebruikt.

Bronnen

Artikel 10(1) Verordening Artificiële Intelligentie

Wanneer van toepassing?

AI-systeemAI-systeem voor algemene doeleindenAanbieder

Risico

Gebruik van laagkwalitatieve of bevooroordeelde datasets kan leiden tot onbetrouwbare en oneerlijke AI-besluitvorming. Onvoldoende kwaliteitsborging van testdata kan leiden tot vertekende resultaten en gebrekkige prestaties van het AI-systeem bij gebruik in de praktijk.

Maatregelen

id	Maatregelen
owp-11	Voer voorafgaand aan een project een data beschikbaarheid, kwaliteit- en toegankelijkheidsanalayse uit.
owp-02	Beschrijf welke data gebruikt wordt voor de beoogde toepassing
owp-12	Bespreek de vereisten die gelden voor een verantwoorde inzet van algoritmes met aanbieders.
owp-13	Maak vereisten voor algoritmes onderdeel van algemene inkoopvoorwaarden en de contractovereenkomst.
owp-18	Maak vereisten onderdeel van (sub)gunningscriteria bij een aanbesteding.
owp-19	Creëer ruimte om met een aanbieder samen te gaan werken om specifieke vereisten te realiseren
owp-21	Neem het kunnen uitvoeren van een audit over de vereiste op in contractvoorwaarden en de contractovereenkomst
owp-25	Maak vereisten onderdeel van het programma van eisen bij een aanbesteding
owp-26	Maak vereisten voor algoritmes onderdeel van de Service Level Agreement
owp-28	Pas vastgestelde interne beleidskaders toe en maak aantoonbaar dat deze zijn nageleefd bij het ontwikkelen, inkopen en gebruiken van algoritmes.
org-02	Pas vastgestelde beleidskaders toe
dat-01	Controleer de datakwaliteit
dat-08	Zorg dat je controle of eigenaarschap hebt over de data
ver-03	Controleer regelmatig of het algoritme voldoet aan alle wetten en regels en het eigen beleid
mon-04	Monitor regelmatig op veranderingen in de data. Bij veranderingen evalueer je de prestaties en output van het algoritme.