IJESZTŐ PONTOSSÁGGAL FESTIK LE A NEURÁLIS HÁLÓZATOK AZ EMBEREK ARCÁT, PUSZTÁN A HANGJUK ALAPJÁN (2019)

Azt eddig is tudtuk a mesterséges intelligenciával rendelkező neurális hálózatokról, hogy tökéletesen élethű emberi arcképeket tudnak generálni hatalmas adathalmazokból, de ezt a képességüket most már a hangfelismerő technológiákkal is tudják ötvözni – számoltak be a Massachusettsi Műszaki Egyetem (MIT) számítógép-tudománnyal és mesterséges intelligenciával foglalkozó intézetének (CSAIL) kutatói.

A Speech2Face névre keresztelt neurális hálózat betanításához több millió Youtube-videót használtak fel, hogy a bennük szereplő emberek arcvonásai és hangja közti összefüggések alapján később a videóktól független hangok alapján is tudjon fotorealisztikus arcképet rajzolni a mesterséges intelligencia.

Az eredeti arc (balra), az eredeti arc frontalizált, fénysemlegesített változata (középen) és a Speech2Face által generált arc (jobbra)Fotó: Oh et al. 2018

Persze a technológia egyelőre nem képes pontos arcmást generálni hang alapján, de a hangunkat befolyásoló főbb jellemzőkről már van némi fogalma – ide tartozik az életkor, a nem, az etnikum, a száj formája, az arccsontok felépítése vagy az ajkak teltsége. De még olyan beszédjegyek is hatottak az arckép alakulására, mint a beszélt nyelv, az akcentus és a beszéd gyorsasága, amik nemzetiségekre és kultúrákra utalhatnak, így bizonyos fizikai vonásokat is előrevetíthetnek.

Bár a nemet, az életkort és az etnikumot tekintve már közel tökéletes az algoritmus felismerőképessége, a nyelvi akadályokat még nem tudta leküzdeni. A tanulmányban például az szerepel, hogy amikor egy ázsiai férfi kínaiul beszélt, a hálózat egy ázsiai arcot rajzolt le, de amikor ugyanaz az ember angolul beszélt, már egy fehér férfi arcát generálta.

https://qubit.hu/2019/06/12/ijeszto-pontossaggal-festik-le-a-neuralis-halozatok-az-emberek-arcat-pusztan-a-hangjuk-alapjan?fbclid=IwAR17yalREQ8xt0rYiQ9hIMFxjfOO9aXqJ_TGVdVPiwIkeBm0m9geqBDNG74