Kalbos atpažinimo ir sintezavimo technologijos pažengė taip toli, kad galimybė kalbėtis su žmogumi paskambinus į informacinių paslaugų centrą gali tapti tikra prabanga. Kuo toliau, tuo dažniau mus aptarnaus kompiuteris - tik ne visada tą žinosime.
Prie automatizuoto skambučių aptarnavimo, kai tam tikrais numeriais paskambinę į banką ar telekomunikacijų bendrovę išgirstame iš anksto autoatsakiklyje įrašytas frazes, jau pripratome. “Laba diena”, “prašome palaukti”, “jei norite sužinoti sąskaitos likutį, spauskite “vienas” - visiems akivaizdu, kad tai iš anksto įrašyti žmonių žodžiai, kuriais reaguojama į tam tikrus jūsų veiksmus. Tačiau kai susidursime su naujos kartos kompiuterinėmis balso sintezavimo sistemomis, galinčiomis “suprasti” mūsų žodžius realiuoju laiku, bus nelengva išsyk atspėti, kas su mumis bendrauja - žmogus ar mašina. Tokie sprendimai kaip IBM “Supervoices” - jau rinkoje.
IBM balso sintezavimo technologijos kūrėjai užsibrėžė išmokyti kompiuterius ne tik ištarti bet kokį sakinį, kokį gali pasakyti žmogus, bet ir padaryti taip, kad klausytojai nepajustų skirtumo. Vyro ar moters balsu “Supervoices” gali skaityti interneto tinklapyje skelbiamas naujienas ar supažindinti su visa šūsnimi naujų el. pašto laiškų taip natūraliai, tarsi tai darytų jūsų sekretorė ar padėjėjas.
“Supervoices”, kaip ir įprasti automatiniai atsakikliai, naudoja įrašytą žmonių kalbą. Tačiau panašumai tuo ir baigiasi: IBM sukurta technologija remiasi sakytinės kalbos pagrindu - fonemomis, iš kurių dėliojami žodžiai. Anglų kalboje yra apie 40 fonemų. “Supervoice” savo duomenų bazėje turi apie 10 000 tokių garsų sąskambių, iš kurių tarsi “Lego” kaladėlių, derindama jas pagal spalvą ir formą parenka optimaliausius tarimo variantus. Jie sudaromi priklausomai nuo kompiuterio konstruojamų žodžių tarties, tempo, sąskambio bei kirčiavimo. “Supervoice” teksto vertimo kalba sistema žodžių sekas verčia fonemų serijomis. Programinė įranga pažymi kiekvienos fonemos ypatumus, pavyzdžiui, kokie garsai seka iš karto po jos ar yra prieš ją, įvertina, ar tai pirmoji, ar paskutinė fonema tame žodyje ir sakinyje, nustato, ar tas žodis yra daiktavardis, ar veiksmažodis, ar sakinys yra klausiamasis. Nuo visų šių ir daugelio kitų požymių priklauso sintezuojamos kalbos natūralumas.
Apdorojusi tekstą “Supervoice” ima analizuoti savo garso įrašų bazę, rinkdama geriausius variantus atsižvelgiant į tris svarbiausius žodžio tarimo kriterijus - fonemų toną, dermę ir garsą. Tai nuolat kintančios reikšmės, kurios tarsi anotacijos “prikabinamos” prie kiekvieno duomenų bazėje esančio fonemos įrašo. Programinė įranga po to ima derinti fonemas prie turimo teksto žodžių - tam naudojami balso vertimo tekstu technologijos pagrindai.
Išmokti teisingai tarti reikiamus žodžius - dar ne viskas, juos reikia sudėlioti į natūraliai skambančius sakinius. “Supervoice” pažymi, kur sakinyje yra kableliai - kalbantysis paprastai žodį taria lėčiau prieš pauzę, tad fonemas prie kablelį reikia šiek tiek ištęsti. Priklausomai nuo sakinio konstrukcijos keičiasi ir fonemų tonai, žodžių tempas - tai įvertinama pagal statistinį “Supervoice” modelį. Parinkdama tipiškus, dažniausiai vartojamus sakinių tarimo variantus sistema dar labiau priartina sintezuojamą kalbą prie natūralios.
Nepaisant akivaizdaus sudėtingumo, visas teksto pavertimo kalba procesas tetrunka milisekundes. Rezultatus galima įvertinti “Supervoice” tinklapyje (http://www.research.ibm.com/tts/coredemo.html) - parašę iki 30 žodžių ilgio sakinį ar sakinius, išgirsite, kaip jį perskaitys kompiuteris. Įdomu, kad IBM sistema gražiai ištaria ir lietuviškas pavardes, tokias, kaip Paksas ir Brazauskas…
Žinoma, kai ką gali pakerėti galimybė klausytis prieš miegą kompiuterio skaitomos knygos, bet šiuolaikinės kalbos sintezavimo priemonės siūlo daug įspūdingesnių taikymų: kišeninį vertėją, kuris jūsų rašomus ar tariamus žodžius bei frazes ištars arabiškai, kiniškai ar japoniškai, įvairiausias informacines sistemas, kurios “protingai” bendraus su vartotojais, pavyzdžiui, atsižvelgdamos į jų pageidavimus galės pasiūlyti įvairius kelionės lėktuvu variantus ir t.t. Kadangi tokios sistemos sugebės mokytis iš savo klaidų ir nuolat save tobulinti, neišvengiamai artėja diena, kai į paprastus klausimus mums atsakinės tik mašinos.