Šiais laikais plagijuojama ne tik ruošiant namų darbus, bet ir rašant daktaro disertacijas. Tačiau nauja Veimare kuriama programa turėtų susekti tekstų vagis, viliasi Vokietijos dienraštis „Berliner Zeitung“.
Pažymėti, nukopijuoti, įterpti. Parsisiųsti iš interneto tinkamą tekstą ir įsikelti jį į savo dokumentą, apsimetus, kad tai tavo rašto darbas, daug kam atrodo patrauklu. Vieno Leipcigo universitete atlikto tyrimo išvadose sakoma, kad 23 proc. studentų prisipažino plagijuojantys rašto darbus – tai yra, nenurodantys naudotų šaltinių. Tokių dalykų pasitaiko net ruošiant daktaro disertacijas, teigia dienraštis. Tačiau nauja kompiuterinė programa, kuriama Veimaro statybos ir architektūros universitete (Bauhaus-Universität Weimar), turėtų padėti išaiškinti svetimų minčių vagystes.
„Jau daugiau nei 10 metų naudojamos kompiuterių programos, nagrinėjančios, ar teksto autorius nenukopijavo jo iš kito šaltinio“, - teigia šio universiteto Informatikos katedros dėstytojas Martinas Potthastas. Jis ir jo kolegos patobulino jau žinomus plagiato aptikimo mechanizmus ir apjungė juos į „Picapica“ pavadintą programą. Pasak Potthasto, ši programa gali nutverti už rankos net ir tuos, kurie keičia nusirašyto teksto sakinius vietomis.
Kaip ir kitose su nusirašinėjimu kovojančiose programose, pirmiausia į „Picapica“ reikia įkelti tikrinamą tekstą. Kad internete būtų galima surasti galimus teksto šaltinius, programa nustato raktažodžius. „Tekste apie automobilius dažniausiai sutinkamos sąvokos – automobilis, variklis, benzinas, dyzelis ir galia“, - aiškina M. Potthastas. Kad geriau išgrynintų raktažodžius, programa iš pradžių nufiltruoja vadinamuosius žodžius – stabdžius, t.y. artikelius, prielinksnius, įvardžius. Iš likusių žodžių dešimt dažniausiai sutinkamų persiunčiami į interneto paieškos sistemas, tarp jų „Google“ ir „Yahoo!“. Jų aptiktus dokumentus „Picapica“ automatiškai įvertina ir pažymi tekste panašias formuluotes.
Kartais tekstų vagys, tikėdamiesi sumėtyti pėdas, keičia svetimus sakinius vietomis. „Picapica“ gali atpažinti ir tokią gudrybę, rašo „Berliner Zeitung“ Tuo tikslu naudojama vadinamoji maišos funkcija (hashing). Veimare sukurta programa kiekvieną tekstą padalija į fragmentus, susidedančius iš maždaug 100 žodžių. Šie fragmentai automatiškai išnagrinėjami naudojant 30 įvairių statistinių metodų. Pavyzdžiui, apskaičiuojama, kaip dažnai kartojasi tam tikros pirmosios žodžių raidės. Baigiant analizę statistiniai duomenys apibendrinami. Gautas rezultatas gana tiksliai apibūdina visą tekstą. O kadangi statistiniai metodai nekreipia dėmesio į žodžių eilės tvarką sakinyje, tai sakinių sukeitimas tik nežymiai gali įtakoti teksto tikrinimo rezultatus.
Programa taip pat tikrina, ar „Wikipedia“ enciklopedijoje nėra teksto fragmentų su vienodomis maišos funkcijos reikšmėmis. Veimaro informatikai tuo pačiu metodu išanalizavo visus angliškus ir vokiškus „Wikipedia“ straipsnius ir išsaugojo gautus rezultatus. Dėl to teksto patikrinimas dabar tetrunka vos kelias sekundes, rašo „Berliner Zeitung“.
Nors „Wikipedia“ straipsnių turinys nuolat keičiasi, statistiniai teksto lyginimo metodai išlieka gana patikimi. Nedideli pataisymai neturi poveikio maišos funkcijai, tvirtina programuotojai. „Tačiau siekiant absoliutaus aiškumo reikia reguliariai atnaujinti straipsnių analizę“, - sako M. Potthastas.
Kaip ir kitos su plagijavimu kovojančios programos, „Picapica“ pirminį tekstą gali lyginti tik su paskelbtais internete. „Tačiau būtent tokia medžiaga dažniausiai ir plagijuojama“, tvirtina Bielefeldo universiteto sociologas Nielsas Taubertas. Kad galėtų greičiau nustatyti nusirašinėjančius studentus, jis naudoja amerikiečių sukurtą programą „Turnitin“, kurios licenziją įsigijo universitetas. „Vien tik informavimas, kad naudojame tokią programą, daugelį studentų veikia „raminamai“, - sako Taubertas. Kol programa nebuvo naudojamasi, kas ketvirtas bandydavo pateikti svetimą darbą kaip savo. Dabar tokių nesąžiningų studentų liko mažiau nei 5 proc., priduria sociologas.
Gali būti, kad nenutverti lieka ir kiti melagiai, kurių paliktų pėdsakų neaptiko nei „Turnitin“, nei pats dėstytojas, nes jis paprasčiausiai neturi laiko nagrinėti visų įtartinų atvejų. Ar jų dalį sumažins „Picapica“, paaiškės kitais metais. O iki to laiko Martinas Potthastas su savo kolegomis toliau optimizuos savo programą, o galiausiai įkels ją į universiteto serverį, kad kiekvienas besidomintis galėtų ją išbandyti.
Tačiau sunkūs laikai ateis ne tik tiems, kurie plagijuoja internete paskelbtus tekstus, bet ir perrašinėja knygas. Mat „Picapica“ gali analizuoti ir stilių. Pavyzdžiui, ji lygina sakinių ilgį arba vidutinį skiemenų skaičių žodžiuose. Šie duomenys leidžia spręsti apie teksto sudėtingumą, o jis skiriasi priklausomai nuo autoriaus ir temos. Jei tiriamo to paties teksto požymiai labai skiriasi, tai iškart leidžia įtarti, kad šis autorius ne viską rašė pats, rašo „Berliner Zeitung“.