شرکت فناوری گوگل مشارکت خود با بوستون داینامیکس را برای ادغام مدلهای استدلال تجسمیافته Gemini Robotics در ربات چهارپا Spot اعلام کرد که گامی رو به جلو در کاربرد هوش مصنوعی در رباتیک دنیای واقعی است. این همکاری ربات را قادر میسازد تا محیط خود را بهتر تفسیر کند، اشیا را شناسایی کند و وظایف را بر اساس دستورالعملهای زبان طبیعی اجرا کند، به جای اینکه صرفاً به روالهای از پیش برنامهریزیشده متکی باشد.
این ادغام بر اساس کار تجربی انجامشده در طول یک هکاتون داخلی در سال 2025 بنا شده است، جایی که توسعهدهندگان بررسی کردند که چگونه مدلهای زبانی بزرگ و سیستمهای استدلال بصری میتوانند استقلال Spot را تقویت کنند. با استفاده از Gemini Robotics، ربات میتواند ورودی بصری از دوربینهای خود را پردازش کند و دستورالعملهای سطح بالا - مانند سازماندهی اشیا در یک اتاق - را به اقدامات فیزیکی هماهنگ ترجمه کند.
برخلاف برنامهنویسی رباتیک سنتی که اغلب به منطق سفت و سخت گامبهگام وابسته است، این سیستم یک اینترفیس انعطافپذیرتر مبتنی بر دستورات مکالمهای معرفی میکند. توسعهدهندگان با استفاده از کیت توسعه نرمافزار Spot یک لایه نرمافزاری واسطه ایجاد کردند که به مدلهای Gemini اجازه میدهد با اینترفیس برنامهنویسی ربات ارتباط برقرار کنند. این چارچوب هوش مصنوعی را قادر میسازد تا از مجموعهای تعریفشده از اقدامات، از جمله ناوبری، تشخیص شیء، عکسبرداری، گرفتن و قرار دادن انتخاب کند.
در نمایشهای عملی، سیستم توانایی تفسیر دستورالعملهای کلی و سازگاری با محیطهای پویا را نشان داد. به عنوان مثال، هنگامی که وظیفه سازماندهی اقلام به آن محول میشد، مدل هوش مصنوعی دادههای بصری را تجزیه و تحلیل کرد، اشیا مرتبط را شناسایی کرد و ربات را از طریق توالی اقداماتی هدایت کرد. بازخورد از ربات - مانند تکمیل وظیفه یا محدودیتهای فیزیکی - در زمان واقعی ادغام شد و به سیستم اجازه داد تا رفتار خود را بدون مداخله دستی تنظیم کند.
این رویکرد با محدود کردن هوش مصنوعی به قابلیتهای از پیش تعریفشده در API ربات، مرزهای عملیاتی را حفظ میکند و عملکرد قابل پیشبینی و کنترلشده را تضمین میکند. این طراحی سازگاری را با ایمنی متعادل میکند که یک ملاحظه کلیدی برای استقرار هوش مصنوعی در سیستمهای فیزیکی است.
این مشارکت همچنین دستاوردهای بالقوه کارایی را برای توسعهدهندگان برجسته میکند. با کاهش نیاز به کدنویسی دستی گسترده، رابطهای زبان طبیعی به مهندسان اجازه میدهند تا به جای برنامهنویسی هر توالی اقدام، بر تعریف اهداف تمرکز کنند. این تغییر میتواند توسعه برنامههای کاربردی رباتیک را در صنایعی مانند تولید، بازرسی و لجستیک تسریع کند.
اگرچه پیادهسازی همچنان آزمایشی است، نمایش روندهای گستردهتر در هوش مصنوعی فیزیکی را منعکس میکند، جایی که مدلهای بنیادی به طور فزایندهای برای تقویت درک ماشینی و تصمیمگیری استفاده میشوند. هر دو شرکت اشاره کردهاند که توسعههای بیشتری در حال انجام است، از جمله ادغام مستمر سیستمهای مبتنی بر Gemini در پلتفرمهای رباتیک.
این همکاری حاکی از انتقال به سمت تعامل شهودیتر انسان و ماشین است، جایی که رفتار پیچیده رباتیک میتواند از طریق ورودیهای سادهشده هدایت شود. با ادامه تکامل مدلهای هوش مصنوعی، چنین ادغامهایی ممکن است دامنه عملکردی سیستمهای خودکار را گسترش دهند و در عین حال موانع فنی استقرار آنها را کاهش دهند.
این مطلب با عنوان گوگل و بوستون داینامیکس مدلهای رباتیک Gemini را برای درک پیشرفته و اجرای وظایف در Spot ادغام میکنند ابتدا در انجمن متاورس منتشر شد.


