
هوش مصنوعی چندمنظوره ماگما
به گزارش پردیس هوش مصنوعی و نوآوری دیجیتال ایران، در هفته اول اسفندماه سال ۱۴۰۳ مایکروسافت از هوش مصنوعی ماگما (Magma) رونمایی کرد.
این یک مدل هوش مصنوعی پایه است که قادر به ترکیب پردازش چشمی و زبانی و همچنین کنترل رابطهای نرمافزاری و سیستمهای رباتیک است. اگر نتایج این مدل در خارج از آزمایشهای داخلی مایکروسافت نیز تأیید شود، میتواند گامی مهم در جهت توسعه هوش مصنوعی چندوجهی باشد که بهصورت تعاملپذیر در فضاهای دیجیتال و فیزیکی فعالیت میکند.
کنترل ربات و نرمافزار با عامل هوش مصنوعی جدید مایکروسافت
مایکروسافت ادعا میکند که ماگما اولین مدل هوش مصنوعی است که نهتنها دادههای چندوجهی مانند متن، تصویر و ویدئو را پردازش میکند، بلکه میتواند بهطور مستقل بر اساس آنها عمل کند؛ از جمله این قابلیتها میتوان به مسیریابی در یک رابط کاربری یا کنترل اشیای فیزیکی اشاره کرد.
این پروژه حاصل همکاری پژوهشگران مایکروسافت با دانشگاه KAIST، دانشگاه مریلند، دانشگاه ویسکانسین-مدیسن و دانشگاه واشینگتن است. پیش از این نیز پروژههای رباتیک مبتنی بر مدلهای زبانی بزرگ (LLM) مانند PALM-E و RT-2 گوگل یا ChatGPT for Robotics مایکروسافت معرفی شده بودند که از هوش مصنوعی برای ایجاد رابطهای تعاملی استفاده میکردند. اما برخلاف بسیاری از سیستمهای هوش مصنوعی چندوجهی پیشین که برای پردازش و کنترل از مدلهای جداگانه استفاده میکردند، ماگما این قابلیتها را در یک مدل پایه (Foundation Model) یکپارچه کرده است.
برنامهریزی خودکار ماگما
مایکروسافت، مگما را بهعنوان گامی بهسوی هوش مصنوعی عاملی (Agentic AI) معرفی میکند که به معنی آن است، سیستم بتواند بهصورت خودکار برنامهریزی کرده و وظایف چندمرحلهای را از طرف انسان انجام دهد. در واقع سیستم صرفاً به سوالات مربوطه پاسخ نمیدهد.
مایکروسافت همچنین عنوان کرده که با توجه به هدف، ماگما میتواند برنامه ریزی و اقدامات لازم برای دستیابی به هدف را انجام دهد. ماگما این کار را با استفاده از ترکیب کردن دادههای چشمی و زبانی انجام میدهد. همچنین با استفاده از این کار میتواند محیطهای پیچیده را کنترل کند.
شرکت open ai هم از طریق پروژههایی مانند operator به دنبال آزمایش برای هوش مصنوعی عاملی است. گوگل نیز از طریق پروژه gemini 2 در حال تحقیق و توسعه در این مورد است.
شرکت مایکروسافت ماگما بر پایه مدلهای زبانی بزرگ و مبتنی بر ترنسفورمر ساخته است. مایکروسافت دادههای آموزشی را به یک شبکه عصبی وارد میکند اما با مدلهای سنتی بصری- زبانی مانند چت جی پی تی تفاوت ساختاری دارد. میتوان گفت ماگما فراتر از یک هوش کلامی عمل میکند و اصطلاحاً یک هوش فضایی را شامل میشود. بنابراین ماگما میتواند برنامه ریزی کند و اقدامات را راساً اجرا نماید.
مایکروسافت ادعا کرده که ماگما یک مدل ادراکی نیست و با آموزش بر روی مجموعهای از تصاویر، ویدئو ها و دادههای رباتیک به یک عامل چند بعدی واقعی تبدیل شده است.
مؤلفههای جدید ماگما
مدل مگما دو مؤلفه فنی جدید معرفی میکند:
Set-of-Mark : این بخش، اشیایی را که میتوان در یک محیط با آنها تعامل داشت، شناسایی میکند. این کار با اختصاص برچسبهای عددی به عناصر تعاملی انجام میشود. این برچسبها مانند دکمههای قابل کلیک در یک رابط کاربری (UI) یا اشیای قابل گرفتن در یک فضای کاری رباتیک هستند.
Trace-of-Mark: این بخش، الگوهای حرکتی را از دادههای ویدئویی یاد میگیرد.
مایکروسافت میگوید این قابلیتها به مدل ماگما این اجازه را میدهد که وظایفی مانند ناوبری در رابطهای کاربری یا هدایت بازوی رباتیک برای گرفتن اشیا را انجام دهد.
جیانوی یانگ، پژوهشگر ماگما در مایکروسافت، در هکرنیوز توضیح داده که نام «Magma» مخفف عبارت "M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)" است. این توضیح پس از آن مطرح شد که برخی کاربران اشاره کردند «Magma» از قبل نام یک کتابخانه جبر ماتریسی بوده و ممکن است باعث سردرگمی در بحثهای فنی شود.
بهبود نسبت به مدلهای قبلی
مایکروسافت در معرفی ماگما ادعا میکند کهMagma-8B در آزمایشهای استاندارد عملکرد رقابتی دارد و در ناوبری رابط کاربری (UI navigation) و کنترل رباتیک نتایج قابلتوجهی به دست آورده است. بهعنوان مثال، این مدل در معیار VQAv2 (پرسش و پاسخ تصویری) امتیاز ۸۰.۰ را کسب کرده است، که بالاتر از GPT-4V با امتیاز 77 است. اما کمی پایینتر از LLaVA-Next با امتیاز 81. است. همچنین، امتیاز POPE آن ۸۷.۴ بوده که در مقایسه با سایر مدلها بالاترین امتیاز محسوب میشود.
در زمینه کنترل رباتیک، گزارش شده که ماگما عملکرد بهتری نسبت به OpenVLA دارد و در چندین وظیفهی کنترل رباتها بهتر از آن عمل کرده است.
ارزیابی مدل ماگما
همیشه باید در ارزیابی عملکرد مدلهای هوش مصنوعی کمی احتیاط کرد، چراکه بسیاری از معیارهای سنجش یا بنچ مارک هنوز از نظر علمی تأیید نشدهاند که بتوانند ویژگیهای مفید مدلهای هوش مصنوعی از جمله ماگما را بهدرستی اندازهگیری کنند.
صحت نتایجی که مایکروسافت ارائه کرده باید به طور مستقل تائید شود و این موضوع زمانی قابل انجام است که سایر پژوهشگران به کد منتشرشدهی عمومی دسترسی پیدا کنند.
مگا نیز مانند همه مدلهای دیگر هوش مصنوعی، کامل نیست و طبق مستندات مایکروسافت، این مدل همچنان با محدودیتهایی در زمینه تصمیمگیریهای مرحله به مرحله و پیچیده به ویژه در وظایفی که به مراحل متعدد و پردازش در طول زمان نیاز دارند روبهرو است. مایکروسافت اعلام کرده که برای بهبود این قابلیتها همچنان در حال تحقیق و توسعه است.
جیانوی یانگ اعلام کرده که مایکروسافت کد مربوط به آموزش و استنتاج ماگما را در GitHub منتشر خواهد کرد تا پژوهشگران بتوانند بر اساس آن کار کنند. اگر ماگما بتواند وعدههای خود را عملی کند، میتواند دستیار هوش مصنوعی مایکروسافت را فراتر از تعاملات متنی ساده ببرد و آنها را قادر سازد که بهطور خودکار نرمافزارها را اجرا کنند و از طریق رباتیک، وظایف دنیای واقعی را انجام دهند.
تغییر فرهنگ هوش مصنوعی
ماگما همچنین نشانهای از تغییر سریع فرهنگ پیرامون هوش مصنوعی است. تنها چند سال پیش، صحبت دربارهی چنین مدلهای عاملی (Agentic AI) باعث نگرانی بسیاری از افراد شد که تصور میکردند این فناوری ممکن است به تسلط هوش مصنوعی بر جهان منجر شود. هرچند هنوز هم برخی این نگرانی را دارند، اما در سال ۲۰۲۵، عاملهای هوش مصنوعی به موضوعی رایج در این تحقیقات تبدیل شدهاند و توسعه آنها دیگر باعث درخواستهای گسترده برای توقف پیشرفت این فناوری نمیشود.