DeepMind A.I. Premosťuje medzeru medzi robotom a ľudskými hlasmi

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Umelá inteligencia len robila hlasy robotov oveľa realistickejšie.

DeepMind, ktorý predtým preukázal silu A.I. tým, že porazil ľudského hráča na Go v marci a znížiť svoj účet za energiu v polovici v júli, sa teraz zameriava na syntézu reči.

Výskumná skupina A.I, ktorá je súčasťou materskej spoločnosti Google Abeceda, dnes ráno oznámila, že vytvorila novú technológiu s názvom WaveNet, ktorá sa dá použiť na generovanie reči, hudby a ďalších zvukov presnejšie ako predtým.

DeepMind vysvetľuje, že mnohé existujúce metódy syntézy reči sa opierajú o „veľmi veľkú databázu fragmentov krátkej reči, ktoré sú zaznamenané z jediného reproduktora a potom rekombinované tak, aby vytvorili úplné výpovede.“ Na druhej strane WaveNet používa „surový priebeh audio signálu Vytvoriť realistickejšie hlasy a zvuky.

To znamená, že WaveNet pracuje s jednotlivými zvukmi vytvorenými, keď človek hovorí namiesto použitia úplných slabík alebo celých slov. Tieto zvuky potom prechádzajú „výpočtovo nákladným“ procesom, ktorý DeepMind zistil, že je „nevyhnutný pre generovanie komplexného, ​​realistického zvuku“ so strojmi.

Výsledkom všetkej tejto práce je 50 percentné zlepšenie syntetizovanej reči v americkej angličtine a čínštine. Tu je príklad reči generovanej pomocou parametrického prevodu textu na reč, ktorý je dnes bežný a ktorý DeepMind používa na demonštráciu, ako táto metóda syntézy reči chýba:

A tu je príklad tej istej vety, ktorú vytvoril WaveNet:

Keďže spoločnosti pokračujú vo svojej práci na rozhraniach prirodzeného jazyka, bude čoraz dôležitejšie ponúkať realistickejšie odpovede. WaveNet môže pomôcť vyriešiť tento problém.

$config[ads_kvadrat] not found