Ontwerp en train het algoritme om bestand te zijn tegen (cyber)aanvallen
owk-09OntwikkelenBeleid en adviesOntwikkelaarTechnische robuustheid en veiligheid
Maatregel
Ontwerp en train het algoritme om bestand te zijn tegen adversarial aanvallen.
Toelichting
De impact van een adversarial AI-aanval hangt af van de mate van autonomie waarmee een algoritme wordt ingezet. Een algemene impact-beperkende maatregel is daarom om menselijke gebruikers duidelijke instructies mee te geven om de uitkomsten van de algoritmes te controleren.
Voor de verschillende typen adversarial AI-aanvallen zijn specifieke maatregelen mogelijk:
Poisoning aanval
Bij een poisoning aanval wordt het AI-systeem vergiftigd doordat een aanvaller aanpassingen aan de trainingsdata doet, waardoor het AI-systeem fouten gaat maken. Bijvoorbeeld een spamfilter die getraind is op gemanipuleerde data, en zo toch nog bepaalde spam e-mails doorlaat. Maatregelen gericht op het behoud van de integriteit van de trainingsdata kunnen hiertegen worden ingezet.
Input- of evasion aanval
Bij een input- of evasion aanval voegt een aanvaller hele kleine bewerkingen toe aan een input zodat een AI-systeem wordt misleid: het trekt een foute conclusie. Een voorbeeld hiervan is het plakken van een gele post-it op een stopbord, waardoor een auto met AI gebaseerde omgevingsherkenning het bord niet meer goed kan herkennen en zijn snelheid aanpast. Op evasion aanvallen kan geanticipeerd worden bij het testen van de robuustheid van algoritmes. Bijvoorbeeld door als onderdeel van een representatieve testomgeving ook rekening te houden met moedwillig, subtiel aangepaste input.
Backdoor
Een backdoor in een algoritme geeft een aanvaller er toegang toe en/of de mogelijkheid om deze te manipuleren. Een voorbeeld hiervan is een nummerbord herkenningsalgoritme dat tijdens de ontwikkelfase van een backdoor voorzien is door een aanvaller, waardoor via een speciale toevoeging aan een nummerbord deze niet meer herkend wordt. Maatregelen gericht op controle van verwerking van trainingsdata, gebruik van ontwikkeltools en halffabricaten en het trainingsproces beperken de mogelijkheid om aanvallers backdoors te laten injecteren.
Model stealing
Bij model stealing of model reverse engineering brengt een aanvaller in kaart hoe een algoritme in elkaar zit. Hierdoor kan een aanvaller het algoritme voor andere doeleinden misbruiken, zoals het vinden van kwetsbaarheden of van evasion tactieken voor het algoritme.
Inversion of inference aanval
Met inversion of inference aanvallen kan een aanvaller achterhalen wat voor (mogelijk vertrouwelijke) trainingsdata is gebruikt. Zo kunnen gevoelige informatie worden blootgelegd, waaronder privacygevoelige gegevens en intellectueel eigendom.
Bijbehorende vereiste(n)
Risico
Adversarial AI-aanvallen kunnen leiden tot ongewenste misleiding, manipulatie of uitschakeling van de werking van een algoritme of tot verlies van gevoelige gegevens.