Ako Multi-Armed Bandit určuje, aké reklamy a príbehy vidíte online

$config[ads_kvadrat] not found

CS885 Lecture 8a: Multi-armed bandits

CS885 Lecture 8a: Multi-armed bandits
Anonim

Predstavte si, že ste hráč a stojíte pred niekoľkými hracími automatmi. Vaším cieľom je maximalizovať vaše výhry, ale v skutočnosti neviete nič o potenciálnych odmenách, ktoré ponúka každý počítač. Chápete však, že páky, ktoré ťaháte, a frekvencia, s akou tak robíte, ovplyvní výsledky vášho flámovania v hazardných hrách.

Tento scenár, ktorému každý deň čelia návštevníci Las Vegas a Atlantic City (do akej miery ľudia stále chodia do Atlantic City), je tiež klasickou logickou hádankou nazývanou „Multi-Armed Bandit“ - hracie automaty sa nazývajú „One-Armed Banditi “starnutím Reno-typov, pretože majú jednu páku a berú peniaze ľudí. Hoci neexistuje žiadny správny spôsob, ako riešiť situácie viacerých ozbrojených banditov - najbližší kandidát je Gittins Index - existujú strategické prístupy k riešeniu týchto problémov, ktoré vidíte bez registrácie každý deň, keď idete online. Mnohé algoritmy, ktorými sa riadi spôsob, akým sa obsah zobrazuje na stránkach Google a na webových stránkach, sú založené na stratégiách MAB. Cieľom takmer vo všetkých prípadoch je prepojiť učenie a výsledky a maximalizovať potenciál oboch.

Používa sa multi-ozbrojený banditový prístup The Washington Post Ak chcete zistiť, aké fotografie a titulky s najväčšou pravdepodobnosťou kliknete, a bezdrôtové siete zistia, ktoré optimálne, energeticky úsporné trasy sú najlepšie. Algoritmy, ktoré vyrastajú z prístupov MBA, sú pre tieto spoločnosti a mnohé ďalšie veľmi dôležité, pretože v podstate určujú, kedy a ktoré reklamy sa zobrazujú online.

Zistiť, čo reklamy ukázať ľuďom, je náročný problém, pretože existuje toľko jedno-ozbrojených banditov beží po kliknutí na veci on-line. Algoritmy MAB pre reklamy zvyčajne používajú rýchlo sa meniaci problém „smrteľného multi-ozbrojeného bandita“, ktorý sa uplatňuje v časovo obmedzených časových úsekoch. Dopravné údaje sa používajú na rozvoj čoraz efektívnejších metodík.

Je ťažké pripojiť MAB na presný účel, pretože je možné vytvoriť toľko variácií vzorca. K-ozbrojení banditi, napríklad, majú „zbrane“, ktoré súťažia o získanie najvyššej očakávanej odmeny. Kontextualizovaní banditi robia to isté, ale s „odborným poradenstvom“ - údajmi, ktoré boli predtým zozbierané u používateľa - a webová stránka s názvom „ILOVETOCONBANDITS“ funguje len na rozvrhu vopred určených kôl. Naopak, klasický prístup MAB nemá žiadne vedľajšie informácie a výsledok závisí len od potenciálu zvolenej akcie.

Zatiaľ čo najužitočnejšou aplikáciou pre MAB sa zdá byť internet, výskumníci pracujú na tom, aby našli spôsob, ako ich aplikovať na scenáre „reálneho života“. V dokumente z roku 2015 výskumníci z University of British Columbia zvažujú aplikáciu MAB na lekárske skúšky. Cieľom, ak sa ukáže, že MAB je tu možné, je, že algoritmus MAB by mohol merať účinok konkrétnej medikácie. Zjavným problémom je, že ak by sa nedala vytvoriť počítačovo modulovaná verzia, tento prístup by bol jednoducho príliš časovo náročný. Neexistuje spôsob, ako by sa mohol návrh MAB umiestniť do klinického skúšania.

Myšlienka je pekná, ale nie je realizovateľná. Kým tu nebude budúcnosť, budete pociťovať hroznú prítomnosť viacerých ozbrojených banditov, keď sa zúfalo pokúsite kliknúť na vyskakovacie reklamy.

$config[ads_kvadrat] not found