Ga naar inhoud

Ontwerp en train het algoritme om bestand te zijn tegen (cyber)aanvallen

owk-09OntwikkelenBeleid en adviesOntwikkelaarTechnische robuustheid en veiligheid

Maatregel

Ontwerp en train het algoritme om bestand te zijn tegen adversarial aanvallen.

Toelichting

De impact van een adversarial AI-aanval hangt af van de mate van autonomie waarmee een algoritme wordt ingezet. Een algemene impact-beperkende maatregel is daarom om menselijke gebruikers duidelijke instructies mee te geven om de uitkomsten van de algoritmes te controleren.

Voor de verschillende typen adversarial AI-aanvallen zijn specifieke maatregelen mogelijk:

Poisoning aanval

Bij een poisoning aanval wordt het AI-systeem vergiftigd doordat een aanvaller aanpassingen aan de trainingsdata doet, waardoor het AI-systeem fouten gaat maken. Bijvoorbeeld een spamfilter die getraind is op gemanipuleerde data, en zo toch nog bepaalde spam e-mails doorlaat. Maatregelen gericht op het behoud van de integriteit van de trainingsdata kunnen hiertegen worden ingezet.

Input- of evasion aanval

Bij een input- of evasion aanval voegt een aanvaller hele kleine bewerkingen toe aan een input zodat een AI-systeem wordt misleid: het trekt een foute conclusie. Een voorbeeld hiervan is het plakken van een gele post-it op een stopbord, waardoor een auto met AI gebaseerde omgevingsherkenning het bord niet meer goed kan herkennen en zijn snelheid aanpast. Op evasion aanvallen kan geanticipeerd worden bij het testen van de robuustheid van algoritmes. Bijvoorbeeld door als onderdeel van een representatieve testomgeving ook rekening te houden met moedwillig, subtiel aangepaste input.

Backdoor

Een backdoor in een algoritme geeft een aanvaller er toegang toe en/of de mogelijkheid om deze te manipuleren. Een voorbeeld hiervan is een nummerbord herkenningsalgoritme dat tijdens de ontwikkelfase van een backdoor voorzien is door een aanvaller, waardoor via een speciale toevoeging aan een nummerbord deze niet meer herkend wordt. Maatregelen gericht op controle van verwerking van trainingsdata, gebruik van ontwikkeltools en halffabricaten en het trainingsproces beperken de mogelijkheid om aanvallers backdoors te laten injecteren.

Model stealing

Bij model stealing of model reverse engineering brengt een aanvaller in kaart hoe een algoritme in elkaar zit. Hierdoor kan een aanvaller het algoritme voor andere doeleinden misbruiken, zoals het vinden van kwetsbaarheden of van evasion tactieken voor het algoritme.

Inversion of inference aanval

Met inversion of inference aanvallen kan een aanvaller achterhalen wat voor (mogelijk vertrouwelijke) trainingsdata is gebruikt. Zo kunnen gevoelige informatie worden blootgelegd, waaronder privacygevoelige gegevens en intellectueel eigendom.

Bijbehorende vereiste(n)

Bekijk alle vereisten
Vereiste
aia-10 - Hoog-risico-AI-systemen zijn voldoende nauwkeurig, robuust en cyberveilig.
aia-22 - De werking van hoog-risico-AI-systemen wordt gemonitord.
aia-32 - AI-modellen voor algemene doeleinden met systeemrisico’s zijn voldoende beveiligd tegen cyberaanvallen.
bio-01 - Computersystemen zijn voldoende beveiligd tegen ongelukken en cyberaanvallen
avg-12 - Data zoals persoonsgegevens zijn voldoende beveiligd tegen ongelukken en cyberaanvallen.

Risico

Adversarial AI-aanvallen kunnen leiden tot ongewenste misleiding, manipulatie of uitschakeling van de werking van een algoritme of tot verlies van gevoelige gegevens.

Bronnen

Voorbeeld