هوش مصنوعی چندمنظوره ماگما

هوش مصنوعی چندمنظوره ماگما

به گزارش پردیس هوش مصنوعی و نوآوری دیجیتال ایران، در هفته اول اسفندماه سال ۱۴۰۳ مایکروسافت از هوش مصنوعی ماگما (Magma) رونمایی کرد.

این یک مدل هوش مصنوعی پایه است که قادر به ترکیب پردازش چشمی و زبانی و همچنین کنترل رابط‌های نرم‌افزاری و سیستم‌های رباتیک است. اگر نتایج این مدل در خارج از آزمایش‌های داخلی مایکروسافت نیز تأیید شود، می‌تواند گامی مهم در جهت توسعه هوش مصنوعی چندوجهی باشد که به‌صورت تعامل‌پذیر در فضاهای دیجیتال و فیزیکی فعالیت می‌کند.

کنترل ربات و نرم‌افزار با عامل هوش مصنوعی جدید مایکروسافت

مایکروسافت ادعا می‌کند که ماگما اولین مدل هوش مصنوعی است که نه‌تنها داده‌های چندوجهی مانند متن، تصویر و ویدئو را پردازش می‌کند، بلکه می‌تواند به‌طور مستقل بر اساس آن‌ها عمل کند؛ از جمله این قابلیت‌ها می‌توان به مسیریابی در یک رابط کاربری یا کنترل اشیای فیزیکی اشاره کرد.

این پروژه حاصل همکاری پژوهشگران مایکروسافت با دانشگاه KAIST، دانشگاه مریلند، دانشگاه ویسکانسین-مدیسن و دانشگاه واشینگتن است. پیش از این نیز پروژه‌های رباتیک مبتنی بر مدل‌های زبانی بزرگ (LLM) مانند PALM-E و RT-2 گوگل یا ChatGPT for Robotics مایکروسافت معرفی شده بودند که از هوش مصنوعی برای ایجاد رابط‌های تعاملی استفاده می‌کردند. اما برخلاف بسیاری از سیستم‌های هوش مصنوعی چندوجهی پیشین که برای پردازش و کنترل از مدل‌های جداگانه استفاده می‌کردند، ماگما این قابلیت‌ها را در یک مدل پایه (Foundation Model) یکپارچه کرده است.

برنامه‌ریزی خودکار ماگما

مایکروسافت، مگما را به‌عنوان گامی به‌سوی هوش مصنوعی عاملی (Agentic AI) معرفی می‌کند که به  معنی آن است، سیستم بتواند به‌صورت خودکار برنامه‌ریزی کرده و وظایف چندمرحله‌ای را از طرف انسان انجام دهد. در واقع سیستم صرفاً به سوالات مربوطه پاسخ نمی‌دهد. 

مایکروسافت همچنین عنوان کرده که با توجه به هدف، ماگما می‌تواند برنامه ریزی و اقدامات لازم برای دستیابی به هدف را انجام دهد. ماگما این کار را با استفاده از ترکیب کردن داده‌های چشمی و زبانی انجام می‌دهد. همچنین با استفاده از این کار می‌تواند محیط‌های پیچیده را کنترل کند. 

شرکت open ai هم از طریق پروژه‌هایی مانند operator به دنبال آزمایش برای هوش مصنوعی عاملی است. گوگل نیز از طریق پروژه gemini 2 در حال تحقیق و توسعه در این مورد است. 

شرکت مایکروسافت ماگما بر پایه مدل‌های زبانی بزرگ و مبتنی بر ترنسفورمر ساخته است. مایکروسافت داده‌های آموزشی را به یک شبکه عصبی وارد می‌کند اما با مدل‌های سنتی بصری- زبانی مانند چت جی پی تی تفاوت ساختاری دارد. می‌توان گفت ماگما فراتر از یک هوش کلامی عمل می‌کند و اصطلاحاً یک هوش فضایی را شامل می‌شود. بنابراین ماگما می‌تواند برنامه ریزی کند و اقدامات را راساً اجرا نماید. 

مایکروسافت ادعا کرده که ماگما یک مدل ادراکی نیست و با آموزش بر روی مجموعه‌ای از تصاویر، ویدئو ها و داده‌های رباتیک به یک عامل چند بعدی واقعی تبدیل شده است. 

مؤلفه‌های جدید ماگما

مدل مگما دو مؤلفه فنی جدید معرفی می‌کند: 

  Set-of-Mark : این بخش، اشیایی را که می‌توان در یک محیط با آن‌ها تعامل داشت، شناسایی می‌کند. این کار با اختصاص برچسب‌های عددی به عناصر تعاملی انجام می‌شود. این برچسب‌ها مانند دکمه‌های قابل کلیک در یک رابط کاربری (UI) یا اشیای قابل گرفتن در یک فضای کاری رباتیک هستند.

 Trace-of-Mark: این بخش، الگوهای حرکتی را از داده‌های ویدئویی یاد می‌گیرد.

مایکروسافت می‌گوید این قابلیت‌ها به مدل ماگما این اجازه را می‌دهد که وظایفی مانند ناوبری در رابط‌های کاربری یا هدایت بازوی رباتیک برای گرفتن اشیا را انجام دهد.

جیانوی یانگ، پژوهشگر ماگما در مایکروسافت، در هکرنیوز توضیح داده که نام «Magma» مخفف عبارت "M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)" است. این توضیح پس از آن مطرح شد که برخی کاربران اشاره کردند «Magma» از قبل نام یک کتابخانه جبر ماتریسی بوده و ممکن است باعث سردرگمی در بحث‌های فنی شود.

بهبود نسبت به مدل‌های قبلی

مایکروسافت در معرفی ماگما ادعا می‌کند کهMagma-8B در آزمایش‌های استاندارد عملکرد رقابتی دارد و در ناوبری رابط کاربری (UI navigation) و کنترل رباتیک نتایج قابل‌توجهی به دست آورده است. به‌عنوان مثال، این مدل در معیار VQAv2 (پرسش و پاسخ تصویری) امتیاز ۸۰.۰ را کسب کرده است، که بالاتر از GPT-4V با امتیاز 77 است. اما کمی پایین‌تر از LLaVA-Next با امتیاز 81. است. همچنین، امتیاز POPE آن ۸۷.۴ بوده که در مقایسه با سایر مدل‌ها بالاترین امتیاز محسوب می‌شود.

در زمینه کنترل رباتیک، گزارش شده که ماگما عملکرد بهتری نسبت به OpenVLA دارد و در چندین وظیفه‌ی کنترل ربات‌ها بهتر از آن عمل کرده است.

ارزیابی مدل ماگما

همیشه باید در ارزیابی عملکرد مدل‌های هوش مصنوعی کمی احتیاط کرد، چراکه بسیاری از معیارهای سنجش یا بنچ مارک هنوز از نظر علمی تأیید نشده‌اند که بتوانند ویژگی‌های مفید مدل‌های هوش مصنوعی از جمله ماگما را به‌درستی اندازه‌گیری کنند. 

صحت نتایجی که مایکروسافت ارائه کرده باید به طور مستقل تائید شود و این موضوع زمانی قابل انجام است که سایر پژوهشگران به کد منتشرشده‌ی عمومی دسترسی پیدا کنند.

مگا نیز مانند همه مدل‌های دیگر هوش مصنوعی، کامل نیست و طبق مستندات مایکروسافت، این مدل همچنان با محدودیت‌هایی در زمینه تصمیم‌گیری‌های مرحله به مرحله و پیچیده به ویژه در وظایفی که به مراحل متعدد و پردازش در طول زمان نیاز دارند روبه‌رو است. مایکروسافت اعلام کرده که برای بهبود این قابلیت‌ها همچنان در حال تحقیق و توسعه است.

جیانوی یانگ اعلام کرده که مایکروسافت کد مربوط به آموزش و استنتاج ماگما را در GitHub منتشر خواهد کرد تا پژوهشگران بتوانند بر اساس آن کار کنند. اگر ماگما بتواند وعده‌های خود را عملی کند، می‌تواند دستیار هوش مصنوعی مایکروسافت را فراتر از تعاملات متنی ساده ببرد و آن‌ها را قادر سازد که به‌طور خودکار نرم‌افزارها را اجرا کنند و از طریق رباتیک، وظایف دنیای واقعی را انجام دهند.

تغییر فرهنگ هوش مصنوعی

ماگما همچنین نشانه‌ای از تغییر سریع فرهنگ پیرامون هوش مصنوعی است. تنها چند سال پیش، صحبت درباره‌ی چنین مدل‌های عاملی (Agentic AI) باعث نگرانی بسیاری از افراد شد که تصور می‌کردند این فناوری ممکن است به تسلط هوش مصنوعی بر جهان منجر شود. هرچند هنوز هم برخی این نگرانی را دارند، اما در سال ۲۰۲۵، عامل‌های هوش مصنوعی به موضوعی رایج در این تحقیقات تبدیل شده‌اند و توسعه آن‌ها دیگر باعث درخواست‌های گسترده برای توقف پیشرفت این فناوری نمی‌شود.