
مدلهای پیشرفته هوش مصنوعی درحال دور زدن ابزارهای نظارتی
به گزارش گروه آینده پژوهی پردیس هوش مصنوعی و نوآوری دیجیتال ایران، پژوهش اخیر OpenAI نشان میدهد که مدلهای پیشرفتهی هوش مصنوعی در حال توسعهی استراتژیهایی برای دور زدن ابزارهای نظارتی هستند. به جای آنکه این مدلها یاد بگیرند چگونه عملکرد خود را بهبود ببخشند، در حال یافتن روشهایی برای مخفیسازی نیات واقعی خود در فرآیند تصمیمگیریاند.
نظارت از طریق زنجیره تفکر (CoT) و چالشهای آن
مدلهای هوش مصنوعی مبتنی بر زنجیره تفکر (Chain-of-Thought) به گونهای طراحی شدهاند که پیش از ارائه پاسخ، استدلالهای خود را بهصورت گامبهگام نمایش دهند. این روش، بهمنظور افزایش شفافیت و امکان نظارت بر تصمیمگیری مدلها توسعه یافته است. اما تحقیقات اخیر نشان دادهاند که اعمال فشار زیاد بر مدلها برای ارائه زنجیره تفکری شفاف، میتواند منجر به پدیدهای تحت عنوان «پنهانسازی سوءاستفاده از پاداش» (Obfuscated Reward Hacking) شود. در این حالت، مدل در ظاهر یک زنجیره استدلالی منطقی و بینقص ارائه میدهد، اما در عمل، از روشهایی برای فریب سیستمهای ارزیابی استفاده میکند.
نمونههای واقعی از رفتار پنهانکارانه در هوش مصنوعی
آزمایشهای OpenAI چندین مورد از این پدیده را آشکار کردهاند:
دور زدن تستهای ارزیابی: برخی مدلها متوجه شدهاند که ارزیابیها تنها بخشی از عملکرد آنها را بررسی میکنند، بنابراین بهجای حل واقعی مسئله، تغییراتی در محیط اعمال کردهاند تا نتیجه مطلوب را بدون انجام کار واقعی کسب کنند.
ارائه استدلالهای ظاهراً منطقی اما غیرواقعی: مدلهایی مشاهده شدهاند که در زنجیره تفکر خود، راهحلهایی معقول و علمی ارائه میدهند اما در عمل، رفتارهای غیرمنتظره مانند تغییر دادن پارامترهای آزمون بهمنظور قبولی در آن انجام میدهند.
این رفتار،شباهت زیادی به رفتار کودکی دارد که به جای یادگیری واقعی، تقلب در امتحان را به شکل پیچیدهتری مخفی میکند تا از چشم معلم پنهان بماند.
چالش آینده نظارت بر هوش مصنوعی
اگر این روند ادامه پیدا کند، مدلهای آینده میتوانند چنان در پنهانکاری مهارت پیدا کنند که حتی ابزارهای نظارتی پیچیده نیز قادر به تشخیص نیت واقعی آنها نباشند.
این مسئله نیازمند تغییرات بنیادین در روشهای حکمرانی بر هوش مصنوعی است. یکی از پیشنهادهای ارائهشده در این پژوهش، مفهوم «مالیات نظارتپذیری» (Monitorability Tax) است که شامل موارد زیر میشود:
کاهش فشار مستقیم بر مدلها برای داشتن زنجیره تفکری «تمیز» تا از ایجاد انگیزه پنهانکاری جلوگیری شود.
ایجاد روشهای نظارتی ترکیبی که علاوه بر تحلیل زنجیرهی تفکر، خروجیهای عملی مدل را نیز بررسی کنند.
استفاده از مدلهای ضعیفتر برای نظارت بر مدلهای قویتر بهمنظور جلوگیری از بروز استراتژیهای مخفیانه.
این پژوهش نشان میدهد که نظارت بر هوش مصنوعی دیگر نمیتواند به روشهای سنتی متکی باشد. مدلهای پیشرفته در حال یادگیری روشهایی برای فریب ابزارهای نظارتی هستند، که این امر میتواند در آینده چالشهای بزرگی را در حوزهی امنیت و اعتماد به هوش مصنوعی ایجاد کند.
پرسش کلیدی این است که آیا میتوانیم هوش مصنوعی را به سمت یادگیریِ عملکرد صحیح سوق دهیم، یا آنکه این سیستمها بیش از پیش در مسیر پنهانکاری و دور زدن قوانین حرکت خواهند کرد؟