Paskirstytosios interneto paieškos sistemos “Grub” kūrėjai per keletą mėnesių užsibrėžė pasiekti tai, kas vis dar neįmanoma: kasdien iš naujo suindeksuoti visą Voratinklį. Su sąlyga, kad jūs jiems padėsite.
Neseniai už 1,4 mln. dolerių įsigijusi Oklahomoje (JAV) įsikūrusią kompaniją “Grub” (www.grub.org), kurioje dirba tik trys žmonės, paieškos sistema “LookSmart” (www.looksmart.com) ėmėsi ambicingiausio Voratinklio šukavimo projekto. Pasitelkusi “Grub” paskirstytojo skaičiavimo technologiją, “LookSmart” kviečia interneto vartotojus prisidėti prie Voratinklio tyrinėjimo dovanojant nenaudojamus savo kompiuterio ir interneto ryšio resursus. Savanoriai, parsisiuntę “Windows” ir “Linux” aplinkoms skirtą “Grub” klientinę programą - beje, šiandien projekto svetainėje (http://www.grub.org/html/downloads.php?PHPSESSID=bb45dc17097c809a8ea5af12ccedb303) turėtų būti paskelbta naujausia jos versija - laikinai nenaudojamo kompiuterio ekrano užsklandoje galės matyti, kaip programa “ropoja” iš vieno tinklapio į kitą peržiūrinėdama jų turinį. Atsitiktinai parinktą URL porciją “Grub” parsisiunčia iš pagrindinio projekto serverio. Peržiūrinėdama tinklapius ji juos analizuoja ir paima kiekvieno “pirštų atspaudus” - unikalius dokumento turinį apibūdinančius požymius. Kiekvieną kartą peržiūrinėdama šį tinklapį “Grub” lygina senesnį “atspaudą” su naujuoju. Jeigu jie skiriasi, t.y. tinklapis buvo atnaujintas, naująjį jo aprašą ji išsiunčia į serverį. Paprastai interneto paieškos robotai, rėpliodami nuo vieno tinklapio prie kito, siunčia juos pasiuntusiai paieškos sistemai kiekvieno dokumento aprašą, kurie kaupiami indeksuotų tinklapių duomenų bazėje. Galingi kompiuteriai analizuoja robotų pateikiamus duomenis ir atnaujina informaciją, kad vartotojai gautų kuo tikslesnius ir “šviežesnius” užklausos rezultatus. “Grub” kūrėjai pabrėžia, kad užuot kaskart siuntusi į serverį visų peržiūrėtų dokumentų aprašus, jų programa atrenka tik pakitusį turinį, be to, siunčiami duomenys smarkiai (20:1) suglaudinami. Šitaip taupoma interneto ryšio pralaida.
Klientinę programą parsisiuntęs vartotojas gali keisti kai kuriuos jos parametrus - nustatyti, kada ji gali veikti, kiek interneto ryšio pralaidos suvartoti, ir pan. Ekrano užsklanda, grafiškai atvaizduojanti vartotojo kompiuterio šukuojamą internetą, atlieka ir savotišką pramoginę funkciją - ekrane šmėkščioja tinklapiai iš tos interneto kosmoso dalies, kurioje, ko gero, dar niekuomet nesate buvę ir kažin ar kada apsilankysite. Tai tarsi akistata su interneto begalybe. Įvairiais vertinimais, internete šiuo metu yra daugiau nei 10 milijardų tinklapių, kuriuos galima būtų vadinti turiningais. Kiekvieną dieną atnaujinama arba sukuriama daugiau nei 2 milijonai. Nenuostabu, kad dauguma paieškos sistemų, pasak “Grub” kūrėjų, nė nesiekia kurti kuo išsamesnių indeksuotų tinklapių bazių, nes kuo jos didesnės, tuo sunkiau užtikrinti kokybišką paiešką: mažesnį indeksą yra paprasčiau prižiūrėti, nes tinklapius paieškos robotai gali “apeiti” dažniau. Tačiau įspūdingas indeksuotų tinklapių skaičius yra svarbus kriterijus vartotojams - galbūt todėl apie 50 proc. bet kurios interneto paieškos sistemos duomenų bazės informacija yra pasenusi ar nepakankamai išsami. Paprastai paieškos sistemos savo duomenų bazėms atnaujinti užtrunka nuo 2 savaičių iki kelių mėnesių. Antai interneto paieškos lyderė “Google”, kuri, kaip manoma, yra suindeksavusi apie trečdalį viso Voratinklio, per dieną peržiūri maždaug 150 mln. tinklapių. Tai reiškia, kad savo duomenų bazę ji atnaujina maždaug kas 30 dienų.
“Grub” iššūkis tikrai įspūdingas: programą vartojančių savanorių skaičiui per keletą dienų išaugus iki 1000, jie jau suindeksavo daugiau nei 26 mln. tinklapių. Projekto rengėjai tikina, kad paskirstytosios paieškos technologija gali sukelti tikrą revoliuciją: perėjimas nuo dešimties tūkstančių kompiuterių, kuriuos dabar naudoja “Google”, iki milijonų, kuriuos gali suteikti į “Grub” veiklą įsitraukę savanoriai, suteiks galimybę peršukuoti internetą kiekvieną dieną. 4 milijonai ateivių ieškančių “SETI@Home” savanorių sukūrė didžiausią pasaulyje virtualųjį kompiuterį. Jei “Grub” pavyktų įkalbėti interneto vartotojus padovanoti savo kompiuterių išteklius ne proto brolių paieškoms, o kur kas praktiškesniam tikslui, galbūt realybe taptų ir didžiausia Voratinklio paieškos sistemų svajonė - vykdyti semantinę turinio paiešką internete realiuoju laiku. Užuot dairiusis tinklapiuose minimų raktažodžių, tokia sistema galėtų mums pateikti jų prasmę. Paskirstytosios paieškos technologija turėtų priartinti šį tikslą.