Hlboké „posilňovanie učenia“ je učenie robotov nové zručnosti rýchlejšie ako kedykoľvek predtým

$config[ads_kvadrat] not found

Kaisan rakenneultra rv 28

Kaisan rakenneultra rv 28
Anonim

Roboty sa učia, ako plniť úlohy v sped-up virtuálnych svetoch, rozvíjať zručnosti v priebehu niekoľkých hodín, ktoré by inak mohli trvať mesiace. Simulované učenie hlbokého zosilnenia (alebo Deep RL) znamená schopnosť, ktorá by za normálnych okolností trvala 55 dní. učiť sa v reálnom svete trvá len jeden deň v hyper-zrýchlenej triede.

„Má potenciál skutočne revolucionizovať to, čo môžeme robiť v oblasti robotiky,“ povedala Raia Hadsell, výskumníčka spoločnosti Google DeepMind, na samite Re-Work Deep Learning Summit v Londýne vo štvrtok. "Môžeme sa naučiť zručnosti na úrovni ľudí."

Môže to znieť proti-intuitívne, ako iste celý bod robotov je programátor môže naučiť robiť veci, nie? Pri navrhovaní stroja, ktorý funguje v reálnom svete, však roboty potrebujú veľa údajov, aby pochopili, ako robiť úlohu v neznámej situácii. Ad interim môžu tieto údaje použiť na „naučenie“ zručnosti založenej na všetkých prípadoch, ktoré prišli predtým.

Hlboké zosilnenie učenia zhromažďuje tieto údaje podobným spôsobom, ako sa ľudia učia: robot dokončí úlohu opakovane, napríklad chytí loptu, a zaznamená údaje, aby vytvoril obraz o tom, ako najlepšie chytiť loptu v novej situácii. Keď DeepMind použil model v roku 2013 na to, aby naučil robota, ako ovládať hry Atari, jednoducho tým, že ho postaví pred obrazovku a povie mu konečný cieľ, vedecká komunita ho milovala.

Problém je, že to trvá večne. Musíte hádzať loptičky na robota opakovane, alebo v prípade Atari, nechať robota na chvíľu v jeho spálni. Spustenie simulácie MuJoCo v kombinácii s progresívnou neurónovou sieťou, tréneri môžu spustiť program, ktorý napodobňuje robota, prenáša naučené správanie na robota a mapuje virtuálne pohyby do reálneho sveta.

"Môžeme prevádzkovať tieto simulátory celý deň a celú noc," povedal Hadsell.

Výsledky hovoria samé za seba. Tento robot, ktorý získal svoj diplom v chybe, môže teraz sledovať virtuálne lopty, ako keby boli skutoční.

$config[ads_kvadrat] not found