Algoritmus, ktorý zvládol 'Pong' teraz vynikajúci na 'Flappy Bird', stále Single

$config[ads_kvadrat] not found

Podcast - Ep. 47 - Algoritmy, ktoré by si (asi) mal/a poznať

Podcast - Ep. 47 - Algoritmy, ktoré by si (asi) mal/a poznať
Anonim

Zlepšenie metódy hlbokého učenia, ktorá bola propagovaná pong, Space Invaders a ďalšie hry Atari, študent počítačovej vedy Stanfordskej univerzity Kevin Chen vytvoril algoritmus, ktorý je celkom dobrý na klasickom bočnom scrolleri 2014 Flappy Bird, Chen využil koncepciu známu ako „q-learning“, v ktorej sa agent snaží zlepšiť svoje hodnotenie odplaty pri každej iterácii hry, aby dokončil takmer nemožnú a neuveriteľne návykovú hru.

Chen vytvoril systém, v ktorom bol jeho algoritmus optimalizovaný, aby hľadal tri odmeny: malú pozitívnu odmenu za každý rámec, ktorý zostal nažive, veľkú odmenu za priechod potrubím a rovnako veľkú (ale negatívnu) odmenu za umieranie. Takto motivovaná takzvaná hlboko-sieťová sieť môže podľa správy Chena napodobniť ľudí: „Boli sme schopní úspešne hrať hru Flappy Bird učením sa priamo z pixelov a skóre, dosahovaním super-ľudských výsledkov. “

Pôvodný dokument Atari, publikovaný v roku 2015 v roku 2006. T príroda, pochádza od spoločnosti Google DeepMind, ktorá je vlastníkom spoločnosti Google (teraz známa svojím majstrovstvom starovekej čínskej spoločenskej hry Go). Úspech DeepMind bol prelom v tom, že aspoň vizuálne - alebo pixelov - získal informácie a s minimálnym vstupom dokázal maximalizovať odmeny. Takýto systém odmeňovania bol prirovnávaný k dopaminergnej reakcii mozgu, jednoducho zjednodušený.

Nie je to prvýkrát, čo algoritmus dobyl flapping vták: Skoršia trieda Stanford University študentov počítačovej vedy vytvoril program, ktorý, keď vyškolený cez noc, jeho skóre zlepšila z 0 rúrok prešiel na 1 600.

$config[ads_kvadrat] not found