Krádež modelů AI: Nová technika umožňuje krádež bez nabourání do zařízení
16. 12. 2024 (mai) - Výzkumníci předvedli novou techniku krádeže modelů umělé inteligence (AI), která nevyžaduje přímé nabourání do zařízení, na kterém model běží. Tato metoda funguje i v případě, že útočník nemá žádné předchozí znalosti o softwaru nebo architektuře, na nichž je AI postavena.
"Modely umělé inteligence jsou velmi cenné a nechceme, aby byly kradeny," uvedl Aydin Aysu, spoluautor studie a docent elektrotechniky a počítačového inženýrství na Státní univerzitě v Severní Karolíně.
"Vývoj AI modelu je nákladný a vyžaduje značné výpočetní zdroje. Navíc ukradený model se stává zranitelnějším vůči útokům, protože třetí strany mohou zkoumat jeho slabiny," dodal Aysu.
"Krádeže modelů umělé inteligence a zařízení pro strojové učení narušují práva duševního vlastnictví, ohrožují konkurenční výhodu vývojářů a mohou odhalit citlivá data obsažená v chování modelu," upozornila Ashley Kurian, hlavní autorka studie a doktorandka na NC State.
Studie s názvem "TPUXtract: An Exhaustive Hyperparameter Extraction Framework" byla publikována v odborném časopise IACR Transactions on Cryptographic Hardware and Embedded Systems. V ní vědci popisují, jak se jim podařilo ukrást hyperparametry modelu AI běžícího na jednotce Google Edge TPU (Tensor Processing Unit).
"Jednoduše řečeno, byli jsme schopni určit architekturu modelu a jeho specifické vlastnosti, známé jako vrstvy modelu. Díky tomu jsme dokázali vytvořit přesnou kopii modelu," vysvětlila Kurian.
Použitý Google Edge TPU je komerčně dostupný čip, často používaný na okrajových zařízeních, tedy v terénu u koncových uživatelů.
"Tato metoda funguje na mnoha různých zařízeních. Útočník potřebuje přístup k zařízení, kde model běží, a také k jinému zařízení se stejnými specifikacemi," dodala Kurian.
Metoda je založena na monitorování elektromagnetických signálů zařízení. Vědci umístili elektromagnetickou sondu na TPU čip, což jim umožnilo sbírat data o změnách elektromagnetického pole během zpracování modelu AI.
"Tato data poskytují podpis chování AI modelu," vysvětlila Kurian.
Porovnáním tohoto podpisu s databází jiných modelů běžících na stejném zařízení dokážou vědci určit architekturu a vrstvy cílového modelu. Pokud databáze neobsahuje přesný podpis cílového modelu, použijí techniku, která umožňuje postupné reverzní inženýrství.
"Modely AI mají obvykle 50 až 242 vrstev. Místo pokusu o kompletní rekonstrukci modelu postupujeme po jednotlivých vrstvách. Například máme databázi 5 000 podpisů první vrstvy různých modelů. Porovnáním ukradeného podpisu s databází zjistíme nejbližší shodu," vysvětlila Kurian.
"Tento proces opakujeme vrstvu po vrstvě, dokud nezískáme přesnou kopii modelu," dodala.
V demonstraci vědci ukázali, že jejich metoda dokáže s přesností 99,91 % zrekonstruovat původní model.
"Nyní, když jsme tuto zranitelnost popsali a prokázali, je naším dalším cílem vyvinout a implementovat účinné protiopatření," uzavřel Aysu.
Ashley Kurian et al., TPUXtract: An Exhaustive Hyperparameter Extraction Framework, IACR Transactions on Cryptographic Hardware and Embedded Systems (2024). DOI: 10.46586/tches.v2025.i1.78-103
- mai