Kuris yra geresnis vertėjas – mašina ar žmogus?

Kad visuotinis žiniatinklis būtų iš tiesų visuotinis, ar kinų kalba kalbantys žmonės neturėtų sugebėti internetu bendrauti su tais, kurie kalba tik ispaniškai? Kodėl anglakalbiai negalėtų skaityti tinklaraščių malagasių ar zulų kalba? „Facebook Inc.“ ir „Google Inc.“ yra interneto bendrovės, kurios labai uoliai dirba, kad taip būtų. Pastaruoju metu jos savo vertimų paslaugas smarkiai patobulino.

Šios dvi interneto milžinės patobulinimus atliko laikydamosi skirtingo požiūrio. „Facebook“ žiniatinklį planuoja versti pasitelkdama daugybę savanorių ir keletą samdomų profesionalių vertėjų, o „Google“ – naudodama kompiuterius.

Kuris iš šių būdų bus veiksmingesnis? Lieka tik laukti.

„Facebook“ žmonių atliekamas vertimas

Daugelis tinklaraštininkų, rašančių apie technologijas, mano, kad „Facebook“ būdas yra perspektyvus. Į amerikiečiams skirtõs socialinės tinklavietės sistemą kitos kalbos pirmą kartą buvo įvestos tik 2008 m. sausį. Šiuo metu apie 70 proc. nuo 300 mln. „Facebook“ vartotojų yra žmonės, gyvenantis už JAV ribų.

Kaip tai veikia. „Facebook“ vertimo sektoriuje dirba žmonės. Jie pasiūlo verčiamą frazę, ją išverčia, tada balsuoja, kuris iš vertimo variantų geriausias. Laikui bėgant, daugelis žmonių „Facebook“ vertimus tobulins (sistema veikia panašiai kaip „Wikipedia“) ir jie bus tikslesni, taisyklingesni.

Apimtis. „Facebook“ statistikos duomenimis, dabar svetainė prieinama daugiau kaip 65 kalbomis. Dirbama, kad svetainės kalbų „sąrašą“ papildytų dar maždaug 30 kalbų. Tai reiškia, kad prieš įvedant tas kalbas į „Facebook“ sistemą, reikia susidoroti su įvairiais kalbiniais neaiškumais.

Kas naujo? 2009 m. rugsėjo 30 d. „Facebook“ savo tinklaraštyje pranešė, kad socialinės tinklavietės vertimų technologija prieinama ir kitoms tinklavietėms. Šis interneto pagrindinių puslapių patobulinimas per „Facebook Connect“ (paslauga, leidžianti „Facebook“ vartotojams nueiti į kitas tinklavietes) įgalina įdiegti vertimo programą savo puslapyje. „Facebook“ sistema papildyta dar keletu kalbų, pavyzdžiui, lotynų ir hakerių, kurie šioje tinklavietėje vartojamą žodį „Share“ verčia kaip „blabber t’yer mates!“

Pliusai ir minusai. Žmonės labai gerai „iššifruoja“ idiomas ir slengą, todėl „Facebook“ stengiasi tai išversti adekvačiai. Tačiau mažai yra savanorių, mokančių daug kalbų ir norinčių padėti „Facebook“ komandai tuos žodžius išversti.

„Facebook“ svetainė prieinama daugeliu kalbų, tačiau verčiantis žmogus nepajėgia prieiti prie visų įrašų svečių knygoje, nuotraukų komentarų ir kitų vartotojui įmanomų galimybių. Jei norite rasti draugų, kurie nekalba jūsų kalba, tai didelis minusas. Pagal „Facebook“ atstovo Melorijaus Lukičo pateiktą informaciją, žmonės, kurie norėdami išversti savo puslapį naudoja „Facebook Connect“, gali pasirinkti, kurių tekstų vertimui jiems reikalinga kitų vartotojų pagalba.

Žiniatinklio svetainės „whereivebeen.com“ įkūrėjas Kreigas Uliotas teigia esąs susižavėjęs „Facebook“ siūloma vertimo galimybe, bet iš svetainės vartotojų būtų per daug reikalaujama, jei koks vartotojas, pavyzdžiui, prašytų padėti išversti jo puslapyje matomą informaciją.

„Google“ mašininio vertimo sistema

Žiniatinklyje esančiai informacijai išversti „Google“ naudoja matematines lygtis. Įmonė tai daro turėdama užduotį: tvarkyti pasaulinį informacijos srautą, padaryti tą informaciją tinkamą ir prieinamą visiems.

Kaip tai veikia. „Google“ naudojami kompiuteriai „įgyja vertėjo profesiją“ nagrinėdami žiniatinklyje esantį tekstą, taip pat jau atliktus vertimus. Kuo daugiau žiniatinklyje tekstų, tuo daugiau „Google“ mokosi ir
vertimai
būna geresni. Šiuo metu šios paieškos programos įmonė verčia dokumentus, tiria įvairius rezultatus ir žiniatinklio svetaines“, – teigia vadovaujantysis „Google“ darbuotojas Francas Ohas.

Apimtis. „Google“ teigia, kad yra didžiausia nemokama internetinių vertimo paslaugų teikėja. Jos sistemoje yra 51 kalba ir daugiau kaip 2 500 kalbų porų. Naudojantis „Google“ pagalba, tinklavietėje įdėta informacija verčiama į 130 kalbų.

Kas naujo? Neseniai „Google“ sukūrė valdiklį (angl. widget), kurį kiekvienas tinklavietės vartotojas gali pats įsikelti į savo puslapį ir pasiūlyti „Google“ vertimą. Tarkim, esate tinklaraštininkas, rašantis apie muziką. Galėtumėte sudominti, pavyzdžiui, skaitytojus brazilus, jei pasiūlytumėte mygtuką, kurį nuspaudus jūsų tinklaraštis būtų išverstas į portugalų kalbą.

Visai nauja „Google“ dokumentų vertimo paslauga, leidžianti kiekvienam nemokamai parsisiųsti žiniatinklio dokumentą, išverstą į kelias kalbas. Kad internete esantys tekstai būtų verčiami sparčiau, sukurtas naujas „Google“ „Firefox“ priedas.

„Artimiausiu metu bus galimas interneto pokalbių vertimas, tai pagerins„Google“ kompiuterinio vertimo kokybę“, – teigia Ohas.

Pliusai ir minusai. „Google“ kompiuterizuoto metodo pranašumas yra sugebėjimas labai greitai išversti nepaprastai daug informacijos. Tačiau kompiuteriai nepajėgia sekti modernių kalbos raidos tendencijų, todėl pranešimai apie vertimo klaidas – gana įprastas dalykas.

Per penkerius pastaruosius metus ši paslauga akivaizdžiai patobulinta. Be to, „Google“ suteikia žmonėms galimybę išsiaiškinti vertimo klaidas, siūlyti naujas formuluotes ir padėti versti tekstus į tas kalbas, kurių „Google“ dar „nemoka“.

Mašininis vertimas iš lietuvių kalbos į anglų – jau internete

Interneto tinklapyje http://mvlab.lki.lt jau prieinama bandomoji mašininio vertimo sistema, galinti versti tekstus iš lietuvių kalbos į anglų. Vėliau bus galima versti tekstus ir iš anglų kalbos į lietuvių. Savo jėgas šiame projekte suvienijo Lietuvių kalbos institutas ir kalbinių technologijų plėtojimu užsiimanti bendrovė „Tilde informacinės technologijos“ („Tilde IT“).

Šiuo metu internete yra dvi laisvai prieinamos mašininio vertimo sistemos, galinčios versti iš anglų kalbos į lietuvių, ir viena – iš lietuvių į anglų.Lietuvių kalbos mašininio vertimo sistemos yra pagrįstos taisyklių arba statistiniu vertimo metodu. Pirmasis analizuoja tekstus naudodamas taisykles ir algoritmus, antrasis – remiasi tekstais, išverstais į skirtingas kalbas. Kuo dvikalbių tekstų yra surinkta daugiau, tuo statistinis vertimas būna sklandesnis ir kokybiškesnis.

Lietuvių kalbos institutas sistemina ir skaitmenina įvairius lietuvių kalbos išteklius. Įvairūs lietuviški tekstai, vietovardžių žodynai yra reikalingi, kad mašininio vertimo sistema galėtų patikrinti žodžių ar jų junginių taisyklingumą, ar jie yra vartojami mūsų kalboje.

„Džiugu, kad savo darbu prisidedame prie šiuolaikinių kalbinių technologijų kūrimo. Tikiu, kad šis mūsų darbas bus itin naudingas. Žmonės galės kur kas greičiau rašyti tekstus anglų kalba, o ateityje ir angliškai nemokantys žmonės nesunkiai supras tekstus užsienio kalba”, – džiaugiasi Lietuvių kalbos instituto direktorė Jolanta Zabarskaitė.

Šiuo metu naujos mašininio vertimo sistemos tikslumas siekia 30,3 procentus. Planuojama, kad ateityje ji vers tekstus 60 procentų tikslumu.

Šiandien internete prieinama mašininio vertimo sistemos beta versija nėra galutinis Lietuvių kalbos instituto ir „Tilde IT” darbo rezultatas, todėl jos kūrėjai perspėja, kad kol sistema yra kuriama ir tobulinama, dviprasmiškai išverstų žodžių gali pasitaikyti. Todėl iš pradžių patiems vartotojams gali tekti šiek tiek pasikoreguoti išverstą tekstą. Kadangi mašininio vertimo sistemos kūrimas yra ilgas ir nenutrūkstamas procesas, kūrėjai negali tiksliai pasakyti kada visiškai baigs mašininio vertimo sistemos kūrimo darbus.

„Šiuo metu atliekama daug įvairiausių mokslinių tyrimų, kurie turėtų mums padėti sukurti gerokai sklandžiau verčiančią sistemą. Dabar kaupiamos žinios, kurių rezultatą pamatysime šiek tiek vėliau”, – paaiškina J. Zabarskaitė.

„Tilde IT” direktorius Vaclovas Pranskūnas norėtų į kūrimo procesą įtraukti kuo daugiau visuomenės. „Galbūt bandysime sukurti specialų internetinį žaidimą, susijusį su lietuvių kalba. Jį žaisdami žmonės padėtų kaupti žodžių duomenų bazę, kurią būtų galima panaudoti mašininio vertimo sistemos kūrimo procese. Nesinori, kad tai būtų vien Lietuvių kalbos instituto ir mūsų projektas. Gerai verčianti mašininio vertimo sistema reikalinga daugeliui”, – įsitikinęs V. Pranskūnas.

Skaičiuojama, kad per trejus metus į šios sistemos kūrimą bus investuota apie 7 mln. litų. Įvairių Europos Sąjungos fondų lėšos sudarys apie 70 procentų.

Prieš daugiau nei ketverius metus informacinių technologijų bendrovė „Tilde IT” sukūrė pirmąją šalyje automatizuotą vertimo įrankį „Vertimo vedlys”, kuris palengvina interneto puslapių ir elektroninių laiškų skaitymą užsienio kalba – išverčia vartotojo pasirinktus žodžius ar jų junginius. „Vertimo vedlys” buvo mašininio vertimo sistemos kūrimo darbų užuomazga.

Naujos mašininio vertimo sistemos kūrėjai įsitikinę, kad geriausių vertimo rezultatų galima pasiekti apjungus abu metodus ir panaudojus ontologijų kalbą. Ontologijos – tai savotiškos žinių duomenų bazės. Jų pagalba vertimo sistema sugeba įvertinti ir suprasti kontekstą, todėl vertimo sistemai lengviau parinkti teisingą žodžio prasmę, jei jis jų yra kelios. Pavyzdžiui, priklausomai nuo konteksto angliškas žodis „Georgia” gali būti verčiamas kaip „Gruzija” ir kaip „Džordžija” (JAV valstija), „oil” – gali būti ir „aliejus”, ir „nafta”. Ontologijų kalbą, padėsiančią išvengti žodžių daugiaprasmiškumo, tyrinėja bendrovė „Tilde IT” drauge su partneriais iš Turkijos, Švedijos ir Olandijos.