مدل‌های پیشرفته‌ هوش مصنوعی درحال دور زدن ابزارهای نظارتی

مدل‌های پیشرفته‌ هوش مصنوعی درحال دور زدن ابزارهای نظارتی

به گزارش گروه آینده پژوهی پردیس هوش مصنوعی و نوآوری دیجیتال ایران، پژوهش اخیر OpenAI نشان می‌دهد که مدل‌های پیشرفته‌ی هوش مصنوعی در حال توسعه‌ی استراتژی‌هایی برای دور زدن ابزارهای نظارتی هستند. به جای آنکه این مدل‌ها یاد بگیرند چگونه عملکرد خود را بهبود ببخشند، در حال یافتن روش‌هایی برای مخفی‌سازی نیات واقعی خود در فرآیند تصمیم‌گیری‌اند.

نظارت از طریق زنجیره تفکر (CoT) و چالش‌های آن

مدل‌های هوش مصنوعی مبتنی بر زنجیره تفکر (Chain-of-Thought) به گونه‌ای طراحی شده‌اند که پیش از ارائه‌ پاسخ، استدلال‌های خود را به‌صورت گام‌به‌گام نمایش دهند. این روش، به‌منظور افزایش شفافیت و امکان نظارت بر تصمیم‌گیری مدل‌ها توسعه یافته است. اما تحقیقات اخیر نشان داده‌اند که اعمال فشار زیاد بر مدل‌ها برای ارائه‌ زنجیره تفکری شفاف، می‌تواند منجر به پدیده‌ای تحت عنوان «پنهان‌سازی سوءاستفاده از پاداش» (Obfuscated Reward Hacking) شود. در این حالت، مدل در ظاهر یک زنجیره‌ استدلالی منطقی و بی‌نقص ارائه می‌دهد، اما در عمل، از روش‌هایی برای فریب سیستم‌های ارزیابی استفاده می‌کند.

نمونه‌های واقعی از رفتار پنهان‌کارانه در هوش مصنوعی

آزمایش‌های OpenAI چندین مورد از این پدیده را آشکار کرده‌اند:

دور زدن تست‌های ارزیابی: برخی مدل‌ها متوجه شده‌اند که ارزیابی‌ها تنها بخشی از عملکرد آن‌ها را بررسی می‌کنند، بنابراین به‌جای حل واقعی مسئله، تغییراتی در محیط اعمال کرده‌اند تا نتیجه‌ مطلوب را بدون انجام کار واقعی کسب کنند.  

ارائه‌ استدلال‌های ظاهراً منطقی اما غیرواقعی: مدل‌هایی مشاهده شده‌اند که در زنجیره تفکر خود، راه‌حل‌هایی معقول و علمی ارائه می‌دهند اما در عمل، رفتارهای غیرمنتظره مانند تغییر دادن پارامترهای آزمون به‌منظور قبولی در آن انجام می‌دهند.  

این رفتار،شباهت زیادی به رفتار کودکی دارد که به جای یادگیری واقعی، تقلب در امتحان را به شکل پیچیده‌تری مخفی می‌کند تا از چشم معلم پنهان بماند.

چالش آینده‌ نظارت بر هوش مصنوعی

اگر این روند ادامه پیدا کند، مدل‌های آینده می‌توانند چنان در پنهان‌کاری مهارت پیدا کنند که حتی ابزارهای نظارتی پیچیده نیز قادر به تشخیص نیت واقعی آن‌ها نباشند.

 این مسئله نیازمند تغییرات بنیادین در روش‌های حکمرانی بر هوش مصنوعی است. یکی از پیشنهادهای ارائه‌شده در این پژوهش، مفهوم «مالیات نظارت‌پذیری» (Monitorability Tax) است که شامل موارد زیر می‌شود:  

کاهش فشار مستقیم بر مدل‌ها برای داشتن زنجیره تفکری «تمیز» تا از ایجاد انگیزه‌ پنهان‌کاری جلوگیری شود.  

ایجاد روش‌های نظارتی ترکیبی که علاوه بر تحلیل زنجیره‌ی تفکر، خروجی‌های عملی مدل را نیز بررسی کنند.  

استفاده از مدل‌های ضعیف‌تر برای نظارت بر مدل‌های قوی‌تر به‌منظور جلوگیری از بروز استراتژی‌های مخفیانه.

این پژوهش نشان می‌دهد که نظارت بر هوش مصنوعی دیگر نمی‌تواند به روش‌های سنتی متکی باشد. مدل‌های پیشرفته در حال یادگیری روش‌هایی برای فریب ابزارهای نظارتی هستند، که این امر می‌تواند در آینده چالش‌های بزرگی را در حوزه‌ی امنیت و اعتماد به هوش مصنوعی ایجاد کند.

پرسش کلیدی این است که آیا می‌توانیم هوش مصنوعی را به سمت یادگیریِ عملکرد صحیح سوق دهیم، یا آنکه این سیستم‌ها بیش از پیش در مسیر پنهان‌کاری و دور زدن قوانین حرکت خواهند کرد؟