ربات‌های کوچک یاد می‌گیرند در جهان واقعی با سرعت برانند

به گزارش شبکه خبری ICTPRESS،ربات‌هایی که می‌خواهند یک مهارت جدید را یاد بگیرند، بدون انباشت تجربه مانند انسان‌ها باید از صفر شروع کنند. یادگیری تقویتی تکنیکی است که به ربات‌ها اجازه می‌دهد تا مهارت‌های جدید را از طریق آزمون و خطا یاد بگیرند. جهان واقعی پر از آشوب و هرج و مرج است که ربات‌ها بدون تلاش‌های زیاد و غیرعلمی قادر به درک آن نیستند.

کارشناسان امور رباتیک در دانشگاه «یو سی برکلی» در آمریکا از طریق همان حقه‌بازی‌هایی که انسان‌ها انجام می‌دهند این فرایند را تسریع کرده‌اند. آن‌ها به جای اینکه از صفر شروع کنند، از برخی تجربیات قبلی استفاده می‌کنند که به انجام کار کمک می‌کند. این محققان با بهره برداری از یک «مدل بنیادین» که در مورد رانندگی ربات‌ها از پیش آموزش دیده بود، قادر شدند کاری کنند که یک ماشین رالی رباتیک در مقیاس کوچک، خودش شرکت در رقابت رانندگی در مسیر‌های داخلی و بیرونی را یاد بگیرد و بعد از تنها ۲۰ دقیقه تمرین به عملکردی مشابه انسان‌ها برسد.

این مرحله پیش آموزشی اول در زمان فراغت شما از طریق رانندگی دستی یک ربات انجام می‌شود. هدف از انجام این کار این نیست که به ربات یاد داده شود تا در یک مسیر به صورت تند و سریع رانندگی کند. بلکه هدف این کار یاد دادن اصول پایه‌ای برای برخورد نکردن با در و دیوار و اسباب و وسایل است.

وقتی که این «مدل بنیادین» از پیش آموزش دیده در کار باشد، زمانی که به سراغ ماشین رالی کوچک رباتیک می‌روید، این ماشین دیگر لازم نیست از صفر شروع کند. در این مورد لازم است که ماشین را وارد مسیر مورد نظر کنید و آن را زمانی آهسته برانید تا به آن نشان دهید که می‌خواهید کجا برود و سپس اجازه دهید که خودش بطور خودکار و مستقل حرکت کند و به خودش یاد بدهد که سریعتر و سریعتر براند. این ربات با یک دوربین در جلو تلاش می‌کند که هر چه سریعتر به محل ایست بازرسی بعدی برسد و این موجب رفتار‌های جالبی می‌شود.

این ربات در جریان تجربیات و آزمایشات داخلی و بیرونی قادر شد تنها پس از ۲۰ دقیقه تمرین خودکار و مستقل، رانندگی تهاجمی مشابه یک انسان راننده خبره را بیاموزد. به همین علت محققان می‌گویند این مساله نشان می‌دهد که یادگیری تقویتی عمیق می‌تواند یک ابزار قابل اعتماد برای یادگیری سیاست‌های جهان واقعی حتی از روی تصاویر خام باشد اگر با تمرین‌های قبلی ترکیب شده و در متن یک چهارچوب آموزشی خودکار اجرا شود. انجام ایمن این نوع آموزش در پلتفرمی بزرگتر کار بیشتری می‌برد.