Ako DeepMind vyvinul Eierily Self-učil A.I. To môže prekabátiť ľudí

Try Going Over It Again | Learning Intelligence 3

Obsah:

Ako učiť A.I. Učiť sa
Prečo je Alpa nula tak dobrá

Počítače kopali naše krehké ľudské zadky v šachu už niekoľko desaťročí. Prvýkrát sa to stalo v roku 1996, kedy bol Deep Blue spoločnosti IBM schopný zložiť majstra sveta Garyho Kasperova. Ale nová štúdia z abecedy A.I. outfit DeepMind vrhá svetlo na to, aký obmedzený rozsah má naozaj skoré víťazstvo.

Pre jedného, Kasperov odrazil späť, vyhral tri hry a kreslenie dvakrát v playoff šesť hier, za staré Denné správy správa.

Ale oveľa viac, ako hovorí DeepMind výskumník Julian Schrittwieser obrátený, aplikácie ako Deep Blue boli tiež naprogramované manuálne. To znamená, že ľudia museli učiť A.I. všetko, čo potrebovalo vedieť o tom, ako zvládnuť každú predstaviteľnú podmienku. Inými slovami, mohlo by to byť len tak dobré ako programovanie ľudí. A zatiaľ čo Deep Blue bol zjavne schopný sa v šachu celkom dobre zorientovať; dajte mu inú, podobnú hru ako Go a bolo to bezradné.

Alfa Zero je úplne iné. V novej štúdii publikovanej dnes v časopise veda, autori prezradili, ako boli schopní nielen učiť Alpha Zero ako poraziť ľudí v šachu, ale ako naučiť Alfa Zero ako učiť sa zvládnuť viac hier.

Ako učiť A.I. Učiť sa

Alfa Zero bola vyvinutá s použitím techniky nazývanej hlboké posilnenie učenia. V podstate ide o vyučovanie A.I. niečo veľmi jednoduché, rovnako ako základné pravidlá šachu, a potom robiť túto jednoduchú vec znovu a znovu, kým sa neučí zložitejšie, zaujímavé veci ako stratégie a techniky.

"Tradične … ľudia by si vzali svoje vedomosti o hre a pokúsili sa ju kódovať v pravidlách," hovorí Schrittwieser, ktorý pracuje na Alpha Zero už takmer štyri roky. „Náš prístup je inicializovať náhodne a potom nechať hrať hry proti sebe a zo samotných hier sa môže dozvedieť, aké stratégie fungujú.“

Všetky Alpha Zero dostane základné pravidlá, a odtiaľ sa naučí, ako vyhrať tým, že hrá sám. Podľa nových zistení to trvalo iba deväť hodín, kým Alpha Zero zvládol šach, 12 hodín zvládol Šógi a približne 13 dní zvládol Go. Pretože hrá sama, je to v podstate samouk. To urobil mleté mäso zo všetkých svetových majstrov ľudských lídrom riadených algoritmov, porazil majstra sveta 2017 v Shogi 91 percent času.

"Môže nezávisle objaviť zaujímavé poznatky o hre," hovorí Schrittwieser. „Vedie k programom, ktoré hrajú viac ľudí.“

Aj keď je jeho štýl ľudský a kreatívny, je tiež pravdepodobne optimálne, hovorí, natoľko, že Alpha Zero by mal byť schopný dominovať v takmer každej hre, v ktorej má prístup ku všetkým dostupným informáciám. V skutočnosti, Alpha Zero je tak sofistikovaný, možno budeme musieť prejsť na úplne inú triedu hier, aby sme udržali tlak na hranice toho, ako A.I. rieši problémy.

Prečo je Alpa nula tak dobrá

Ad interim výskumníci milujú používanie týchto hier ako testovacích dôvodov pre stále sofistikovanejšie formy algoritmov z niekoľkých dôvodov. Sú elegantné a ľudia si ich už stovky rokov hrajú, čo znamená, že máte veľa potenciálnych vyzývateľov na testovanie vášho algoritmu. Sú však aj komplikované a zložité, čo znamená, že môžu slúžiť ako odrazový mostík pre A.I. vyriešiť problémy v reálnom svete. Schrittwieser hovorí, že ďalšou oblasťou výskumu je vytvorenie algoritmu ako je Alpha Zero, ktorý môže stále robiť optimálne rozhodnutia s nedokonalými informáciami.

„Vo všetkých týchto hrách viete všetko, čo sa deje,“ hovorí. „V skutočnom svete by ste mohli poznať iba časť informácií. Možno poznáte svoje vlastné karty, ale nepoznáte svojho súpera, máte čiastočné informácie. “

Stále existuje niekoľko boardgames schopných poskytnúť algoritmy ako Alpha Zero, tento druh výzvy - Schrittwieser spomenul Stratego, v ktorom hráči skrývajú svoje pohyby jeden od druhého - a Starcraft, ktorý je ďalšou oblasťou záujmu výskumníkov DeepMind zameraných na hry.

„Chceme, aby sa problémy, ktoré riešime stále komplexnejšie,“ povedal. "Ale vždy je to vždy jedna dimenzia."

Ďalšia generácia počítačových riešení pre riešenie problémov Deep Mind už ukazuje potenciál prechodu z herného sveta do reálneho sveta. Začiatkom tohto týždňa oznámila ďalší algoritmus nazvaný AlphaFold, ktorý je schopný extrapolovať proteínovú sekvenciu do presnej predikcie jej 3D štruktúry.Je to problém, ktorý je po desaťročia zmätený vedcami a mohol by pomôcť otvoriť dvere liečeniu chorôb od Alzheimerovej choroby až po cystickú fibrózu.

Od Punk po Rock: Ako 'Fast Five' sa vyvinul Dwayne Johnson

Dwayne Johnson bol vždy silnou akčnou hviezdou, ale Fast Five z neho urobil powerhouse. Kým on nehral predátorský Luke Hobbs v piatej splátke Fast & Furious z roku 2011, Dwayne Johnson nepriniesol dosť vysokú úroveň na to, aby synchronizoval pery, Taylora Swifta bez obetovania Herculean aury. Tak čo bolo ...

Self-Powered Robotic Skin môže pomôcť Amputees cítiť znova

Najviac podceňovaný zmysel ľudstva je dotyk. Naša schopnosť cítiť sa je taká jemná, že ak by naše prsty mali veľkosť Zeme, mohli by sme rozoznať rozdiel medzi jednotlivými vozidlami na ulici. Ale teraz aj náš piaty zmysel je obkľúčený robotmi, ako výskumníci v Pekingu vyvinuli samo-poháňaný robot "skin" preci ...

Twitter pre bunky bude spôsob, ako užitočnejšie ako Twitter pre ľudí

Ľudský impulz k živému blogu je prinajlepšom sporný, ale bolo by neuveriteľne užitočné, keby vedci mali podobne autobiografické nutkanie. Ak by vedci mohli vidieť, čo je bunka taká istá, ako by získali informácie o svojich mladších bratoch 'Warriors fandom, mali by byť schopní sledovať interné programy.

$config[ads_kvadrat] not found