علمی، پژوهشی و فناوری

از شبیه‌سازی تا واقعیت: Cosmos Policy ربات‌ها را با داده‌های کمتر، باهوش‌تر می‌کند

NVIDIA فناوری کنترل جدیدی به نام Cosmos Policy را معرفی کرده است که به ربات‌ها امکان یادگیری پیش‌بینی آینده را می‌دهد

به گزارش پایگاه خبری علم و فناوری :  انویدیا چارچوبی جدید به نام Cosmos Policy معرفی کرده است؛ رویکردی تازه برای کنترل ربات‌ها که در ادامه تلاش گسترده‌تر این شرکت برای توسعه «مدل‌های بنیادین جهان» (World Foundation Models) در سامانه‌های هوش مصنوعی فیزیکی ارائه شده است.

این چارچوب با تطبیق مدل‌های بزرگ پیش‌بینی ویدئویی برای وظایف کنترل و برنامه‌ریزی طراحی شده و هدف آن ساده‌سازی نحوه تصمیم‌گیری ربات‌ها درباره انجام اقدامات مختلف است.

بازاندیشی در مفهوم «پالیسی» (Policy)
در رباتیک، «پالیسی» لایه تصمیم‌گیری است که مشاهدات—مانند تصاویر دوربین و داده‌های حسگرها—را به کنش‌های فیزیکی، مانند حرکت مفاصل یا انجام حرکات گرفتن اشیا، تبدیل می‌کند. پالیسی‌های سنتی ربات‌ها معمولاً به‌صورت شبکه‌های عصبی وظیفه‌محور طراحی می‌شوند که به ماژول‌های جداگانه برای ادراک، برنامه‌ریزی و کنترل نیاز دارند.

این سامانه‌ها معمولاً به حجم زیادی از داده‌های برچسب‌خورده و تنظیمات سفارشی برای هر ربات یا هر محیط نیازمندند.

Cosmos Policy رویکرد متفاوتی اتخاذ می‌کند. به‌جای طراحی یک مدل کنترلی جدید از ابتدا، انویدیا یک مدل از پیش آموزش‌دیده «مدل جهان ویدئویی» با نام Cosmos Predict را با استفاده از داده‌های نمایشی ربات‌ها، پس‌آموزش (Post-training) می‌دهد.

این مدل از پیش درک عمیقی از چگونگی تحول دنیای فیزیکی در طول زمان دارد، زیرا از داده‌های ویدئویی در مقیاس بزرگ یاد گرفته است.

در مرحله پس‌آموزش، اقدامات ربات، حالت‌های فیزیکی و نتایج وظایف به‌عنوان بخشی از نمایش زمانی درونی مدل در نظر گرفته می‌شوند. این کار به مدل اجازه می‌دهد هم پیش‌بینی کند ربات در گام بعدی چه کاری باید انجام دهد و هم پیش‌بینی کند در نتیجه آن اقدام چه اتفاقی خواهد افتاد.

این طراحی به Cosmos Policy امکان می‌دهد تا در یک معماری واحد، اقدامات، حالت‌های آینده و احتمال موفقیت وظیفه را به‌طور هم‌زمان پیش‌بینی کند.

با تکیه بر یک مرحله پس‌آموزش واحد، این چارچوب پیچیدگی معماری را کاهش می‌دهد و نیاز به اتصال چندین مدل تخصصی مجزا برای ادراک و کنترل را از بین می‌برد.

نتایج بنچمارک
نتایج بنچمارک‌ها نشان می‌دهد این رویکرد مؤثر است. در آزمون‌های استاندارد دست‌کاری رباتیک، Cosmos Policy در انجام وظایف چندمرحله‌ای که به استدلال بلندمدت نیاز دارند، به نرخ‌های موفقیت بالایی دست یافت.

در برخی موارد، عملکرد آن با روش‌های موجود برابری کرد یا حتی از آن‌ها فراتر رفت، در حالی که به‌طور قابل‌توجهی به تعداد کمتری از نمونه‌های آموزشی نیاز داشت.

این کارایی داده‌ای در رباتیک اهمیت ویژه‌ای دارد، زیرا جمع‌آوری داده‌های آموزشی در دنیای واقعی پرهزینه و زمان‌بر است.

Cosmos Policy با بهره‌گیری از دانشی که پیش‌تر در مدل‌های بزرگ ویدئویی نهفته است، میزان داده‌های اختصاصی رباتی موردنیاز برای یادگیری رفتارهای کنترلی قابل‌اعتماد را کاهش می‌دهد.

توانایی برنامه‌ریزی
یکی دیگر از ویژگی‌های کلیدی Cosmos Policy، توانایی آن در انجام برنامه‌ریزی در زمان استنتاج است. به‌جای تولید صرفاً اقدام بعدی، مدل می‌تواند چندین توالی پیشنهادی از اقدامات را تولید و ارزیابی کند.

با پیش‌بینی نتایج آینده و پاداش‌های مورد انتظار این توالی‌ها، ربات می‌تواند اقداماتی را انتخاب کند که احتمال موفقیت آن‌ها در افق‌های زمانی طولانی‌تر بیشتر است.

این قابلیت برنامه‌ریزی باعث می‌شود ربات‌ها در مواجهه با وظایف پیچیده، رفتاری کمتر واکنشی و بیشتر راهبردی داشته باشند. این چارچوب همچنین روی سامانه‌های رباتیکی دنیای واقعی ارزیابی شده است.

در آزمایش‌های فیزیکی شامل دست‌کاری دو‌دستی، این پالیسی توانست وظایف بلندمدت را مستقیماً بر اساس ورودی بصری به انجام برساند؛ امری که نشان می‌دهد این رویکرد می‌تواند فراتر از شبیه‌سازی، به محیط‌های واقعی نیز منتقل شود.

Cosmos Policy بخشی از اکوسیستم گسترده‌تر Cosmos انویدیاست که تمرکز آن بر ساخت مدل‌های جهان همه‌منظوره برای ربات‌ها و سامانه‌های خودران است.

هدف کلی این اکوسیستم، فراهم کردن زیرساختی مشترک است که به ماشین‌ها کمک می‌کند دنیای فیزیکی را درک، پیش‌بینی و در آن عمل کنند و نیاز به مهندسی وظیفه‌محور را کاهش دهد.

Cosmos Policy به‌جای آنکه به‌عنوان یک کتابچه قوانین یا استاندارد ایمنی عمل کند، نقش یک زیرساخت فنی برای کنترل ربات‌ها را ایفا می‌کند. ایمنی، انطباق با مقررات و حاکمیت همچنان بر عهده سامانه‌های سطح بالاتر و نهادهای تنظیم‌گر باقی می‌ماند.

با افزایش توانمندی و خودمختاری ربات‌ها، چارچوب‌هایی مانند Cosmos Policy نشان‌دهنده تلاش روزافزون صنعت برای استانداردسازی هسته تصمیم‌گیری هستند؛ همان لایه‌ای که استدلال هوش مصنوعی را به کنش فیزیکی متصل می‌کند.
autorenewthumb_upthumb_down


 

https://stnews.ir/short/VMrvv
اخبار مرتبط
تبادل نظر
نام:
ایمیل: ایمیل خود را با فرمت مناسب وارد کنید
نظر: