هوش مصنوعی معکوس؛ چگونه امنیت هوشمند را به چالش می‌کشد؟

تحلیل‌های بین‌المللی مانند یونیت42، هشدار می‌دهند که در دو سال اخیر استفاده از هوش مصنوعی در عملیات سایبری منطقه‌ای و بین‌المللی افزایش یافته و این می‌تواند تعداد قربانیان شرکتی را بالا ببرد، به دیگر سخن استفاده از هوش مصنوعی در فیشینگ، تولید محتوای جعلی و خودکارسازی حملات رو به افزایش است بنابراین انتظار می‌رود تعداد شرکت‌هایی که تحت تاثیر قرار می‌گیرند هم افزایش یابد.

سیستم‌های تشخیص نفوذ (IDS/IPS) امروزی بطور فزاینده‌ای بر الگوریتم‌های یادگیری ماشین و یادگیری عمیق تکیه می‌کنند تا الگوهای ترافیک مخرب را شناسایی کنند. اما این پیشرفت، حملات جدیدی را نیز به همراه داشته است: حملات علیه خودِ مدل‌های یادگیری آنچه در ادبیات «هوش مصنوعی معکوس» یا «یادگیری ماشین ستیزه‌جویانه» نامیده می‌شود. در این نوشتار بررسی کرده‌ایم که چگونه مهاجمان می‌توانند مدل‌های تشخیص نفوذ را فریب دهند، همچنین به نمونه‌های رایج حملات، روش‌های دفاعی و توصیه‌های عملی برای شرکت‌ها در جهت بهبود مقاومت سیستم‌ها پرداخته‌ایم.

چیستی و انگیزه مهاجم

هوش مصنوعی معکوس به حملاتی گفته می‌شود که هدفشان تغییر ورودی‌ها یا داده‌های آموزش بگونه‌ای است که مدل یادگیری اشتباه کند بی‌آنکه رفتار ظاهری خیلی متفاوت بنظر برسد. انگیزه مهاجم در زمینه تشخیص نفوذ بطور معمول شامل فرار از شناسایی، کاهش دقت سیستم، یا تحریف فرایندهای پاسخ‌دهی خودکار است. مهاجم ممکن است کد مخرب را بگونه‌ای بسازد که بنظر قانونی بیاید یا در محیط‌های توزیع‌شده داده‌هایی وارد کند که مدل را در طول زمان «سمی» کند.

سطوح اصلی حملات علیه IDS

IPS سیستم شناسایی و جلوگیری از حمله و نفوذ به شبکه است و IDS یک سیستم حفاظتی است که خرابکاری‌های در حال وقوع روی شبکه را شناسایی می‌کند. اینها مشخصات مشترک زیادی دارند. در حقیقت، بیشتر سیستم‌های تشخیص نفوذ در هسته خود یک سیستم جلوگیری از نفو دارند. تفاوت کلیدی بین این فناوری‌ها این است که محصولات IDS تنها ترافیک آسیب‌رسان را تشخیص می دهند، در حالی که محصولات IPS از ورود چنین ترافیکی به شبکه شما جلوگیری می‌کنند، با این مقدمه حمله به IDS در چهار سطح انجام می‌شود:

حملات اجتناب: مهاجم پس از آگاه‌شدن از مدل (یا با حدس زدن)، نمونه‌های مخرب را طوری دستکاری می‌کند که از فیلترها و قوانین عبور کنند. مثال: تغییر توالی بسته‌ها، افزودن یا حذف فیلدهای غیرضروری در پروتکل تا رفتار ترافیک شبیه ترافیک قانون‌مند شود و مدل تشخیص ندهد.
حملات آلوده‌سازی آموزش: مهاجم داده‌های آموزشی یا برچسب‌ها را دستکاری می‌کند تا مدل در مرحله آموزش یاد بگیرد که نمونه‌های مخرب را نادیده بگیرد. در محیط‌هایی که یادگیری آنلاین یا به‌روزرسانی مکرر انجام می‌شود، این حملات بسیار اثرگذارند.
حملات استنتاج: مهاجم با پرس‌و‌جوهای متعدد سعی می‌کند ساختار یا پارامترهای مدل را بیرون کشد تا حملات هدفمندتری طراحی کند. برای IDS مبتنی بر رابط برنامه‌نویسی کاربردی یا سرویس ابری این تهدید واقعی است.
حملات مبتنی بر انتقال: اغلب نمونه‌های جعلی که برای یک مدل ساخته شده‌اند می‌توانند مدل‌های دیگر را نیز فریب دهند. بنابراین مهاجم حتی بدون دسترسی مستقیم به مدل هدف می‌تواند با ساختن حمله علیه مدل جانشین موفق شود.

روش‌های متداول برای ایجاد نمونه‌های مخرب

گرادیان‌محور: در مدل‌های یادگیری عمیق معمول است که از گرادیان تابع هزینه برای پیدا کردن کوچک‌ترین تغییر ممکن در ورودی استفاده شود تا مدل را فریب دهد.
بهینه‌سازی مبتنی بر تخصیص ویژگی: تغییر مقادیر ویژگی‌ها (مثلاً زمان بین بسته‌ها، اندازه بسته‌ها، فلگ‌ها) با محدودیت‌های عملیاتی تا ترافیک همچنان قابل‌پخش باشد.
حذف یا افزودن نویز حساب‌شده: افزودن نویز شبکه‌ای یا اضافه‌کردن بسته‌های پوششی که از نظر عملکرد سرویس مشکل‌ساز نباشند اما مدل را فریب دهند.

پیامدها برای تشخیص نفوذ

حملات موفق می‌توانند باعث شوند که:

تهدیدات جدی بدون هشدار عبور کنند.
نرخ منفی کاذب افزایش یابد، یعنی یکسری آسیب پذیری را که واقعا وجود دارد، شناسایی نمی‌شود و اطمینان کارشناسان کاهش یابد.
هزینه‌های پاسخ و ترمیم افزایش یابد و اعتماد به سیستم کاهش پیدا کند.
در سناریوهای حساس (دیتاسنترها، زیرساخت‌های حیاتی) مخاطرات بالایی ایجاد شود.

روش‌های دفاعی و مقاوم‌سازی

هیچ راه‌حل واحدی برای مقابله با هوش مصنوعی معکوس کامل نیست، اما ترکیب چند لایه دفاعی می‌تواند ریسک را کاهش بدهد:

آموزش مقاوم: در طول آموزش، نمونه‌های اعتراضی تولیدشده به داده‌ها اضافه می‌شوند تا مدل یاد بگیرد در برابر آن‌ها مقاوم باشد. این روش مؤثر است ولی هزینه محاسباتی و نیاز به مجموعه نمونه‌های معنادار دارد.
استخراج ویژگی مقاوم به دستکاری: انتخاب یا مهندسی ویژگی‌هایی که تغییر آن‌ها برای مهاجم سخت یا پرهزینه باشد (مثلاً ویژگی‌های مبتنی بر رفتار بلندمدت یا پروفایل‌های کاربری) کمک می‌کند تا فریب‌پذیری کاهش یابد.
پیش‌پردازش و تصفیه ورودی: نرمال‌سازی، حذف نویز، فشرده‌سازی یا بازسازی ترافیک پیش از وارد کردن به مدل می‌تواند برخی از حملات مبتنی بر نویز را خنثی کند.
تجزیه و تحلیل پاسخ چندمدلی: استفاده از چند مدل متفاوت (مثلاً کلاسیک و عمیق) به‌همراه مکانیزم‌هایی برای تشخیص تغییر توزیع داده (data drift detection) که نشان‌دهنده آلودگی یا حمله درازمدت است.
مدیریت داده‌های آموزشی: کنترل منبع داده‌ها، اعتبارسنجی برچسب‌ها، و محدود کردن مسیرهای آپلود داده‌های آموزشی می‌تواند از حملات مسمومیت داده‌ها جلوگیری کند.
مانیتورینگ و هشدارهای رفتاری: الگوریتم‌های تشخیص رفتار غیرمعمول مدل یا الگوهای پرس‌و‌جو جهت شناسایی تلاش‌های استخراج مدل.
تجهیزات شبکه‌ای و قوانین افزایشی: بکارگیری مکانیزم‌های شبکه‌ای سنتی(فایروال، نرخ‌دهی، IPS مبتنی بر قانون) در کنار مدل‌های یادگیری برای پوشش نقاط کور.

سنجش و ارزیابی مقاومت

برای ارزیابی، باید از سناریوهای حمله واقع‌گرایانه استفاده کنیم:

معیارهایی فراتر از دقت کلی: نرخ منفی کاذب تحت حمله، نرخ تشخیص حمله جدید، هزینه حمله برای مهاجم.
آزمون‌های انتقال‌پذیری: آیا حمله‌ای که روی مدل A ساخته شده مدل‌های B و C را هم فریب می‌دهد؟
آزمون‌های پویا: ارزیابی سیستم در محیط زنده با داده‌های جریان‌دار و به‌روزرسانی مدل.

چالش‌ها و محدودیت‌ها

هزینه محاسباتی: تولید و آموزش با نمونه‌های اعتراضی سنگین است.
واقع‌گرایی نمونه‌ها: نمونه‌های ساخته‌شده با هدف فریب مدل باید در دنیای واقعی قابل‌ارسال و کارا باشند.
تعامل انسان و ماشین: افزایش مقاومت مدل معمولاً با کاهش تفسیرپذیری یا افزایش پیچیدگی همراه است.
دوره به‌روزرسانی مهاجم/ مدافع: مسابقه‌ای مستمر میان مهاجمان و مدافعان وجود دارد که به سرمایه‌گذاری مستمر نیاز دارد.

توصیه‌های عملی برای تیم‌های امنیتی

مدل‌های تولیدی را تحت آزمون‌های اعتراضی منظم قرار دهید.
از چند لایه دفاعی استفاده کنید، یادگیری ماشین تنها قطعه‌ای از پازل است.
منابع و مسیرهای آموزش آنلاین را محافظت کنید تا حملات مسمومیت داده‌ها سخت‌تر شوند.
معیارهای مانیتورینگ را گسترش دهید تا تغییرات توزیع داده در زمان واقعی شناسایی شود.
در سیاست‌های پاسخ، سناریوهای فرار از تشخیص را لحاظ کنید و تست‌های «قرمز تیم» برای تلاش واقعی اجرا کنید.
مستندسازی و گزارش‌پذیری: هر مورد خطا یا تزریق داده باید قابل ردیابی باشد تا ریشه آسیب مشخص شود.

هوش مصنوعی معکوس یک تهدید واقعی برای سیستم‌های تشخیص نفوذ مبتنی بر یادگیری ماشین است؛ اما با اجرای ترکیبی از تکنیک‌های مقاوم‌سازی (آموزش مقاوم، انتخاب ویژگی‌های پایدار، پیش‌پردازش، و دفاع لایه‌ای) می‌توان ریسک را بطور قابل‌توجهی کاهش داد. مهم است که سازمان‌ها یاد بگیرند در بکارگیری هوش مصنوعی در کسب‌وکار خود تنها به بهبود دقت در شرایط ایده‌آل بسنده نکنند و آزمایش‌های واقع‌گرایانه حملات و پایش پیوسته را بعنوان بخش جدایی‌ناپذیر فرایندِ توسعه و بهره‌برداری مدل‌ها بپذیرند.

این مقاله بیست و ششم آذر 1404 در صنعت هوشمند منتشر شد.