Prečo A.I. Môže bojovať o pochopenie arabčiny

$config[ads_kvadrat] not found

PREÁ NÃO É PORQUINHO DA ÍNDIA

PREÁ NÃO É PORQUINHO DA ÍNDIA
Anonim

Vo svete umelej inteligencie sú údaje kráľom. Čím viac máte, tým lepšie sa vaše nástroje stávajú, pretože systémy sa dokážu „naučiť“ viac o tom, čo očakávať. Ale v závislosti na platforme A.I. podľa Miriam Redi, výskumnej pracovníčky pre laboratóriá Yahoo Labs, sú niektoré jazyky lepšie zastúpené ako niektoré iné jazyky.

„Napríklad, ako napríklad Flickr, kde berieme naše údaje, niektoré jazyky sú veľmi málo zastúpené,“ povedala Redi, ktorá vystúpila vo štvrtok na londýnskom summite Deep Learning. "Takže máme angličtinu, milióny obrázkov pre angličtinu, ale pre arabčinu máme asi 100 000."

Rediho tím pracuje na nástroji, ktorý dokáže identifikovať neviditeľné elementy k obrazom, ako sú kultúrne hodnoty a emocionálne konotácie. Nástroj analyzuje text pripojený k verejne dostupným obrázkom na Flickr. Postupom času, A.I. začína chápať, prečo niekto môže označiť obrázok „šťastnou stranou“ alebo „nepríjemným momentom“, ale tieto myšlienky budú čoraz presnejšie, pretože nástroj analyzuje viac obrázkov.

„Bohužiaľ, presnosť detekcie sentimentu v obrazoch pre arabské jazyky je zvyčajne nižšia, pretože nemáme dostatok údajov,“ povedala Redi.

V jazykoch s väčším množstvom údajov si Rediho tím všimol niekoľko zaujímavých modelov. Románske jazyky ako francúzština a španielčina sa prejavovali podobným spôsobom, zatiaľ čo taliančina sa javila ako jediný jazyk, v ktorom používatelia identifikovali obrázky s pojmom „daňové úniky“.

Jazykové bariéry stále zostávajú problémom pre A.I. výskumných pracovníkov. Každý, kto používa službu Google Translate, bude vedieť, že prepínanie jazykov nie je nikdy tak jednoduché, ako to znie. Nový vývoj však mení veci, pričom Facebook tento rok v lete oznamuje, že sa približuje svojmu snu o jednej jazykovej sociálnej sieti a automaticky prekladá texty pre používateľov.

Vývoj v odstraňovaní jazykových bariér môže pomôcť podporiť medzinárodnú komunikáciu, ale v prípade projektov, ako je napríklad Redi's, neexistuje žiadna skutočná náhrada za údaje o náladách vyvolaných ľuďmi.

$config[ads_kvadrat] not found