Ontwerp en train het algoritme om bestand te zijn tegen (cyber)aanvallen

owk-09OntwikkelenBeleid en adviesOntwikkelaarTechnische robuustheid en veiligheid

Maatregel

Ontwerp en train het algoritme om bestand te zijn tegen adversarial aanvallen.

Toelichting

De impact van een adversarial AI-aanval hangt af van de mate van autonomie waarmee een algoritme wordt ingezet. Een algemene impact-beperkende maatregel is daarom om menselijke gebruikers duidelijke instructies mee te geven om de uitkomsten van de algoritmes te controleren.

Voor de verschillende types adversarial AI-aanvallen zijn specifieke maatregelen mogelijk:

Poisoning aanval

Bij een poisoning aanval wordt het AI-systeem vergiftigd doordat een aanvaller aanpassingen aan de trainingsdata doet, waardoor het AI-systeem fouten gaat maken. Bijvoorbeeld een spamfilter die getraind is op gemanipuleerde data en zo bepaalde spam e-mails doorlaat. Maatregelen gericht op het behoud van de integriteit van de trainingsdata kunnen hiertegen worden ingezet.

Input- of evasion aanval

Bij een input- of evasion aanval voegt een aanvaller hele kleine bewerkingen toe aan input zodat een AI-systeem wordt misleid: het trekt een foute conclusie. Een voorbeeld hiervan is het plakken van een gele post-it op een stopbord, waardoor een auto met AI gebaseerde omgevingsherkenning het bord niet meer goed kan herkennen en zijn snelheid aanpast. Op evasion aanvallen kan geanticipeerd worden bij het testen van de robuustheid van algoritmes. Bijvoorbeeld door als onderdeel van een representatieve testomgeving ook rekening te houden met moedwillig, subtiel aangepaste input.

Backdoor

Een backdoor in een algoritme geeft een aanvaller toegang en/ of de mogelijkheid om deze te manipuleren. Een voorbeeld hiervan is een nummerbord herkenningsalgoritme dat tijdens de ontwikkelfase van een backdoor voorzien is van een aanvaller, waardoor via een speciale toevoeging aan een nummerbord deze niet meer herkend wordt. Maatregelen gericht op controle van verwerking van trainingsdata, gebruik van ontwikkeltools en halffabricaten en het trainingsproces beperken de mogelijkheid om aanvallers backdoors te laten injecteren.

Model stealing

Bij model stealing of model reverse engineering brengt een aanvaller in kaart hoe een algoritme in elkaar zit. Hierdoor kan een aanvaller het algoritme voor andere doeleinden misbruiken, zoals het vinden van kwetsbaarheden of van evasion tactieken voor het algoritme.

Inversion of inference aanval

Met inversion of inference aanvallen kan een aanvaller achterhalen wat voor (mogelijk vertrouwelijke) trainingsdata is gebruikt. Zo kunnen gevoelige informatie worden blootgelegd, waaronder privacygevoelige gegevens en intellectueel eigendom.

Risico

Adversarial AI-aanvallen kunnen leiden tot ongewenste misleiding, manipulatie of uitschakeling van de werking van een algoritme of tot verlies van gevoelige gegevens.

Bijbehorende vereiste(n)

Bekijk alle vereisten

ID	Vereiste
aia-10	Hoog-risico-AI-systemen zijn voldoende nauwkeurig, robuust en cyberveilig
aia-22	De werking van hoog-risico-AI-systemen wordt gemonitord
aia-32	AI-modellen voor algemene doeleinden met systeemrisico’s zijn voldoende beveiligd tegen cyberaanvallen
bio-01	Computersystemen zijn voldoende beveiligd tegen ongelukken en cyberaanvallen
avg-12	Data zoals persoonsgegevens zijn voldoende beveiligd tegen ongelukken en cyberaanvallen

Bronnen

Voorbeelden

Sandia: Defending against Adversarial Examples

Adversarial aanvallen zijn er zoals hierboven uitgelegd op verschillende manieren wat er voor zorgt dat per aanval een andere aanpak nodig is. Sandia, een Amerikaanse nationale veiligheidsorganisatie, heeft onderzoek gedaan naar een aantal van deze aanvallen en is met maatregelen gekomen. De meerderheid van deze maatregelen zijn redelijk technisch en kunnen het beste in context geplaatst worden aan de hand van het artikel. Een maatregel daarentegen kan redelijk gemakkelijk uitgevoerd worden en dat is het analyseren van mogelijke risico’s. Sandia geeft drie categoriën aan: defensible, semi-defensible, en indefensible; respectievelijk verdedigbaar, semi-verdedigbaar en onverdedigbaar. Verdedigbare modellen zijn in de juiste omstandigheden goed te vertrouwen. Semi-verdedigbare modellen hebben minstens één hoog-risico grens waar op een manier omheen gewerkt kan worden. Onverdedigbare modellen geven toegang tot input en output data, vaak zijn dit real-time algoritmes of algoritmes waar de trainingsdata openbaar (toegankelijk) is. In alle drie de gevallen moet voorzichtig worden omgegaan met het ontwerp, maar in het geval van semi-verdedigbaar en onverdedigbaar moet er extra goed gemonitored worden.

Bron: Defending against Adversarial Examples

Heb je een ander voorbeeld of best practice, laat het ons weten via algoritmes@minbzk.nl