Beszédfelismerés, nyelvmegértés, automata személyiségek (2003)

Természetes nyelvek gépi megértése, feldolgozása
Egyelore azonban még messze járunk. Annak ellenére, hogy az utóbbi években – a szolgáltatói szektor drasztikus növekedésébol következo üzleti igényekre reagálva – begyorsultak, jelentosebb támogatásokat kapnak a fejlesztések. Két amerikai cég jár az élen: a kaliforniai Nuance Communications (Menlo Park), “az üzlet új hangja” és a bostoni SpeechWorks. Szoftvereikben korábban ellentétes tervezoi megközelítéseket igyekeznek közös nevezore hozni. Termékeiket bankok, légitársaságok, utazási ügynökségek használják, a közeljövoben még nagyobb áttörésre számítanak.

Mindez a természetes nyelvfeldolgozó rendszerek alkalmazásának csak az elso, kezdeti fázisát jelenti. Sikereket azokon a területeken tapasztalnak, ahol az információ kezeléséhez korlátozott, könnyen meghatározható szókészlet elegendo, illetve jelentésbeli két/többértelmuségek egyáltalán nem (vagy ritkán) fordulnak elo.

Steve McClure, az IDC piacelemzo cég szoftverkutató csoportjának igazgatóhelyettese hamarosan bekövetkezo forradalmi változásokra számít. “Míg a kilencvenes évek interfészének a GUI (graphical user interface, grafikus felhasználói felület) számított, a jelen dekádé az NUI, azaz a“természetes” felhasználói felület (natural user interface) lesz” – nyilatkozta.

Kijelentését megerosíti, hogy (a Nuance és a SpeechWorks mellett) egyre több nagyvállalat, kutatóközpont foglalkozik ilyen irányú fejlesztésekkel: AT&T, Banter, IBM, Intel, Inxight, iPhrase Technologies, Microsoft, Palo Alto Research Center, StreamSage.

A természetes nyelvfeldolgozás legnagyobb kihívásaira igyekeznek megoldást találni:

– az emberi beszéd gépi olvasásra alkalmas szöveggé történo pontos átalakítására,
– a szöveg szókészletének és szerkezetének a jelentés kiemelését célzó elemzésére,
– értelmes felelet generálására,
– emberi, emberinek tuno hangon történo válaszadásra.

Automata személyiségek
Utóbbit a Nuance automatizált telefonos “személyiségei” (automated telephone “personas”) példázzák: teljes háttérrel, kidolgozott élettörténetekkel.

Jenni McDermott huszonnégy éves, Oroszlán jegyben született, száznyolcvan centi magas, barna hajú leányzó. Miután Berkeley-n muvészettörténet szakon végzett 2001-ben, nem talált múzeumi munkát, ezért egy kávéházban helyezkedett el. Imádott kutyáját leggyakrabban a tengerparton sétáltatja, kezdo gitáros, amator búvár, de fest is. Barátja dzsessz-zenész.

Természetesen Jenni nemlétezo személy, csak egy automata hang, Deborah Ben-Eliezer színésznoé. A Yahoo! by Phone alkalmazza; rövid, egyszeru, sablonos feleleteket ad. Viszont sokkal olcsóbb, mintha ember végezné ugyanazt a munkát. A részletesen kidolgozott egyéniség pedig azért szükséges, mert a hang hallatán véleményt formálunk róla, illetve a történet ismeretében szórakoztatóbbnak, barátságosabbnak, emberibbnek tunik.

Szintén Nuance-fejlesztés a kaliforniai Bay Area közlekedési helyzetével kapcsolatos kérdésekre válaszoló Cal North. Egy középkorú, a gyerekeket és az amerikai focit kedvelo exrendor. Komoly, udvarias, intelligens.

Az aprólékos személyiségrajzok a tervezokön kívül a hangot adó színészeknek is sokat segítenek. Szaporodnak a “perszónák” – egyre szerteágazóbb területeken dolgoztatják oket…

A nyelvmegértés fejlodése
Jenni vagy Cal felbukkanását a beszédfelismerés terén végzett több évtizedes kutatómunka tette lehetové. Az elso termékek a kilencvenes évek elején kerültek kereskedelmi forgalomba. Az évtized közepén pedig a “diktáló rendszerek” (dictation systems), például a Dragon Systems folyamatos beszédet kilencvenkilenc százalékos pontossággal átíró Naturally Speaking-je és az IBM-féle ViaVoice.

A nyelvmegértés fejlodését két alapveto felismerés gyorsította be. Az egyik: beszélgetopartner gépeink ne HAL-szeru, minket átvágó, a kommunikációt elhiteto, hanem segítokész, kedves rendszerek legyenek! A másikat a két ellentétes, (gyakran) rivális fejlesztocsoportok által képviselt koncepció – nyelvtani elemzés vs. statisztikai módszer – egyeztetése jelentette. Elobbi a megértést a grammatikai szerkezetek közötti különbségek feldolgozásával, utóbbi a szavak és mondatok beszélt nyelvi példákból összeálló adatbázishoz kapcsolásával igyekezett megvalósítani. Az új, egyesített eljárás lényegesen hatékonyabbnak tunik, mint a ketto külön-külön.