A céltalan szörfözés már nem vezet sehová; túl sok az oldal, túl sok az adat,
s az ide-oda szaladgálással csak annyit érünk el, hogy végleg elveszünk az információ
tengerében.
Ha viszont valaki a virtuális világban kiejti azt a szót, hogy keresés, akkor
100 emberből 99-nek a Google jut az eszébe. A Google olyan az intelligens keresés
világában, mint Godot a színdarabban: nem jelenik meg, de a háttérben mindenki
ehhez pozícionálja magát – von párhuzamot a színházi és a virtuális világ között
Váncsa Julianna, a Montana Tudásmenedzsment Kft. műszaki igazgatója.

Váncsa Julianna, Montana
Mindazonáltal sok víz folyt le a világ folyóin, amíg a hőskori Altavistától eljutottunk
a másodperc töredéke alatt akár több millió találatot is feldobó Google-ig.
Relevancia és statisztika
A keresők hőskorában egyébként a találatok sorrendezését a relevanciára próbálták
alapozni – tekint vissza Jóföldi Endre, a Weblib Informatikai Kft. ügyvezetője. Ez azt mutatta, hogy egy adott szöveg,
oldal mennyiben kapcsolódik egy adott keresőkifejezéshez. A módszer egy darabig
bevált, ám a hozzáférhető tartalom mennyiségének robbanásszerű emelkedése új problémákat
hozott.
A mai keresők mindegyike alapvetően statisztikai algoritmusokra épül. A Google
forradalmi ötlete az volt, hogy az oldalak közötti kapcsolatokat figyelembe vette
annak megállapításában, hogy melyek azok az oldalak, amelyek egy-egy témában véleményformálóak,
meghatározóak. Hasonlít ez a tudományos írások impact factor számához, azaz egy
írás annál értékesebb, minél többen idézik az adott tudományterületen. Még jobb,
persze, ha olyanok idézik, akik maguk is sokat idézett szerzők. Ha továbbgondoljuk
a párhuzamot, rögtön két alapvető problémával találjuk szembe magunkat.
Új oldalak és optimalizálás
Először is itt van az új oldalak kérdése. A statisztikai alapú algoritmusok természetükből
adódóan csak visszafelé tudnak nézni. Ha túlságosan új egy információ, még nem
volt lehetősége kiépülni az idézési struktúrának. Ez pedig alapfeltétele lenne
annak, hogy jó helyre kerüljön a sorrendezésben. A probléma ma már egyre fontosabb
téma a szakma, a közösségi hálózatok és azonnali üzenetek világában, ahol minduntalan
kiderül, hogy a legjobb információkat sokszor még sehol sem idézték. Ezek megtalálására
a hagyományos keresők egyszerűen nem alkalmasak.
Másodszor, a keresőoptimalizálással összefüggő kérdésekről sem szabad megfeledkezni.
Ma már a magyar nyelvű oldalak esetében is egyre jobban megfigyelhető, hogy sokszor
pénzügyi erőforrás kérdése, hova kerüljön valakinek az oldala egy adott kulcsszóra.
Hozzá lehet jutni linkekhez, újra lehet írni szövegeket kulcsszósűrűség alapján,
és így tovább. Újra csak nem az információ minősége az elsődleges meghatározó,
hanem valamilyen más szempont.

Strukturált útvonalak
Kérdés, mi vezet a megoldás felé? Itt három lehetséges irányt kell kiemelni.
1. Elképzelhető olyan közösségi megoldások létrejötte, ahol a felhasználók szavazata
segíthet gyorsabban kiemelni egy új lapot az információs szénakazalból.
2. Fejlődnek a szemantikus keresők is, új generációjuk már itt kopogtat az ajtónkon
(Powerset, Hakia, Iglue stb.); és természetesen a nagy keresők fejlesztésének
is ez az egyik fő iránya. A fejlesztők próbálják jobban „megértetni” az oldalak
szövegét a keresőmotorral a tárolás során, nem mindegy ugyanis, hogy egy kulcsszó
az adott oldalon a fő tartalom vagy optimalizálásai szempontok miatt került-e
oda.
3. A találatok jobb megjelenítése is fontos kérdés. A sorrendezés azért lényeges,
mert egy-egy keresőkifejezés esetében az első 10 helyről lecsúszó jó források
gyakorlatilag láthatatlanok. Hiába van a 13. helyen a számunkra legjobb adat,
ha egyszerűen sohasem lapozunk a második találati oldalra – márpedig a statisztikák
ezt bizonyítják.
Mit lehet tenni? Vizualizálhatjuk a találatokat (Searchme, Kartoo, Quintura),
vagy éppen klaszterekbe, tartalmi csoportokba rendezhetjük az információt (Polymeta,
Clusty). Ez már csak azért is fontos, mert a tartalom mennyiségének növekedésével
egyre jobban szűkül a keresztmetszet. Elméleti szempontból ugyanis képtelenség,
hogy ott legyen 10 találatba besűrítve a számunkra fontos információk teljessége.
Ellenőrzés és szakértelem
Sok átlagos felhasználó a Google-ban látja a keresők királyát. De mit is tud
keresni az ember az interneten a Google-lal? Azt, amit valaki valahol közzétett,
tematikától függetlenül, ellenőrizetlen forrásként. Hiszen arról, amit az interneten
megosztanak velünk, sohasem tudjuk, hogy milyen szinten ellenőrzött – esetleg
sehogy sem –, mekkora szakértelemmel hozták létre, illetve mennyire szubjektív
vagy objektív. Abban sem lehetünk biztosak, hogy a fejünkben támadt gondolatot
le tudtuk-e fordítani a Google adta felületen olyan keresőkérdéssé, amelynek segítségével
minden releváns választ megkapunk – mondja Váncsa Julianna.
Eközben több problémával is találkozunk. A Google közismert webes keresőjével
például nem találjuk meg azokat a dolgokat, amelyek lokális hálózatunkon, saját
számítógépünkön találhatóak. Nem találjuk meg azt sem, amit cégek hoztak létre
üzleti vagy kevésbé üzleti információként, és a vállalati tűzfal mögé tették.
Akkor sem kapunk releváns találatokat, ha nem pontosan úgy fogalmazzuk meg a keresőbe
beírandó szavakat, kifejezéseket, mint ahogy azok a keresett szövegben előfordulnak.
Ezekre más megoldást kell találni.
| Intelligensen az itbusinessben is |
|
Az itbusiness online portálján két vertikális, intelligens kereső segíti a látogatók
tájékozódását. Az egyik a pályázatok keresését támogatja úgy, hogy a keresőrobot
tenderinformációkat tartalmazó publikus forrásokból összegyűjti a frissen megjelent
adatokat. Ezeket a Tenderszkenner nevű alkalmazás automatikusan besorolja a felhasználók
által kiválasztott témakörökbe a felépített tudásbázis és a szövegbányászat eszközeinek
felhasználásával.
A másik motor a portál központi keresődoboza mögött húzódik meg, de rövidesen
ugyanez szolgál kapcsolódó cikkekkel a Karrierszkenner és a Cégszkenner szolgáltatás
találati oldalaihoz is.
A keresőmotor lehetővé teszi, hogy ne csak az itbusiness online szöveges, kép-
és videótartalmából, hanem a magyar internet más informatikai portáljairól is
kapjunk találatokat.
A cikkek témái szerinti tartalomjegyzék alapján még egyszerűbb eljutni az igazán
minket érdeklő oldalakra. A keresőmegoldás a magyar nyelvi sajátosságokat is figyelembe
veszi kereséskor, tehát nem betűegyezés alapú szűrést, hanem a ragozott alakoktól
függetlenített kifejezés alapú keresést hajt végre.
|
|
Másrészt a Google úgy indult 12 évvel ezelőtt, hogy a találatokat „érdekmentesen”
szolgáltatta, semmiféle üzleti megoldás, illetve kereskedelmi szempont nem befolyásolta.
Mára eljutottunk odáig, hogy a találati lista első oldalán nem annyira a releváns,
hanem a relevánsnak mutatkozó cégek jelennek meg. Az torzítja az eredményeket,
hogy aki nagy látogatottságot akar elérni, a saját weboldalát a keresőre optimalizálja,
azaz keresett kulcsszavakat tesz weboldalának címébe, valamint legfontosabb metaadatai
közé, amelyeket a Google általában előrehoz.
A tűzfal mögött
Ha viszont azt akarjuk, hogy a saját gépünkön lévő és a vállalati tűzfal mögötti
adatokat is megtaláljuk, egyértelműen vállalati keresőre van szükségünk. Ezekkel
a keresőkkel szemben támasztott egyik legfontosabb követelmény viszont az, hogy
legyenek intelligensek. Arról, hogy hol kezdődik az intelligencia, örök vita folyik
a szakmában, van, ahol már a néhány összefüggést feltáró keresőt is intelligensnek
tartják.
A valódi intelligenciát azonban két tényező határozza meg. Az egyik, ha a kereső
tudja a nyelvet, azaz kidobja a ragozott formákat és szinonimákat is – például
tudja a kutyáról, hogy eb alakban is előfordul –, másrészt megkeresi a kérdéskörrel
összefüggő többi kifejezést is; így nem kell betű szerint tudni, illetve beírni,
amit keresünk.
Ennek alapja a tudás felépítése. Ez azt jelenti, hogy a szakmai terminológiát
hierarchikus rendbe szervezzük (tezaurusz, taxonómia, ontológia), azaz „felparcellázuk”,
s megmondjuk, hogy mi mihez tartozik, mivel áll összefüggésben. Ezt a tudást felhasználhatjuk
arra, hogy osztályozzuk a rendelkezésre álló dokumentumokat, s ebben az esetben
még csak keresni sem kell: csupán odamegyünk a menürendszerben a taxonómiának
ahhoz a részéhez, ahol a keresett kifejezést elhelyeztük.
A szakmai témák rendszerezésén túlmenően lényeges momentum az üzleti megoldások
használata is. Például egy jól felépített, intelligens vállalati keresőrendszer
akár egyszemélyes eszköze lehet egy cégvezetőnek, aki a vállalati információs
rendszer adatbázisaiban, levelezésében vagy eldugott zugaiban különféle formátumban
megjelenő anyagokra kíváncsi, illetve ellenőrzése alatt akarja tartani az üzleti
folyamatokat, s a történésekről nem csupán beosztottjainak jelentéseiből akar
értesülni.
Természetesen a tudás alapú mellett akad másfajta megközelítés is, ilyen például
a tematikus vagy vertikális keresés. Itt szűkebb, meghatározott témák mélyebb
felépítése a cél.
Más módszerrel
Tévedés azt hinni az internetről, hogy a rajta található tengernyi adatból megfelelő
választ lehet összeállítani a bennünket érdeklő kérdésekre. Annál kevésbé, mivel
a három legnagyobb keresőrendszer – a Google, a Yahoo és a Bing – együttesen is
csak néhány ezrelékét látja az internetes tartalmaknak. Az igazán értékes információk
keresése olyan tartalmakban megy végbe az úgynevezett mély weben (deep web), amelyek
adatbázisokban és lekérdezőfelületeken online keresőszóra adott válaszokban található
meg – veszi át a szót Kása Károly, a Weblib Informatikai Kft. ügyvezetője.

Kása Károly, Weblib
Az internetnek az említett keresők látókörén kívül eső adathalmazát más keresőmegoldásokkal
lehet elérni, mégpedig a különböző webhelyeken található, bizonyos mélységig paraméterezhető
keresési űrlapokkal. Ezekkel a szűrési módszerekkel azonban az a gond, hogy nem
intelligensek; csupán keresnek, mégpedig betűegyezés alapján, a megtalálást pedig
ráhagyják a keresést indító személyre. Így nem csoda, hogy – egy felmérés szerint
– a keresést végző vállalati dolgozók 70 százaléka kétórai kutatás után sem találta
meg, amit akart.
Így nagy jelentőségük van az olyan keresési megoldásoknak, amelyek túlmennek
a strukturált adatbázisokban végzett egyszerű szűrési módszeren. Jobban mondva
arra van szükség, hogy ne mi keresgéljünk a felhozott adathalmazban, hanem maga
a rendszer találja meg a szükséges információt. Például úgy, hogy a többezres
találati eredményt elemezzük, mihelyt megérkeznek a keresőrendszerből, s a találatok
közötti összefüggések alapján olyan tartalomjegyzéket, témacsoportokat készítünk
hozzá, amelyek alapján könnyebben eljutunk a bennünket valóban érdeklő információhoz.
A témacsokrokat ugyanakkor a nyelvi sajátosságok alapján célszerű szinonimák
szerint is csoportosítani.
A nyelvészetnek tehát nagy jelentősége lesz a jövőben a keresés hatékonyabbá
tételében, különösen a meglehetősen speciálisnak számító magyar nyelv esetében.
A talált információk megbízhatósága érdekében a vertikális keresők fognak egyre
jobban elterjedni a jövőben. Az egyik jelentős kereső már nyitott is a tematizálás
felé, és speciális lehetőségeket kínál a termékkeresés és az egészségügy területén.
A tematizálás úgy megy végbe, hogy az adott kereső – például a Polymeta – „szemezget”
más keresők találataiból, ezeket összesíti, majd tartalomjegyzéket készít az eredményről.
Ennek a módszernek olyan környezetben van jelentősége, ahol a felhasználónak több
forrásban kell keresnie. Az egyetemi és kutatói környezetben például előfordul,
hogy a kutatóknak drágán és kötelezően előfizethető, külföldi adatbázisokban kell
keresniük. Ennek a több tucat adatbázisnak a kihasználtsága azonban nagyon csekély,
mivel a felhasználóknak a hagyományos keresőkkel nincs idejük az összeset végigböngészni.
A metakereső viszont az összes forrást végigböngészi, s az eredményt közös listában
összegzi egyetlen felületen, mi több, kiegészíti tartalomjegyzékkel is.
Türelmetlen felhasználók
Viszont ha nem tudjuk, hogy hol van az információ, azaz benne van-e a keresőnk
által indexelt adattérben, semmi garancia sincs rá, hogy megtaláljuk – szögezi
le Váncsa Julianna. A kereső ugyanis nem hoz létre, csak szolgáltatja a már meglévő
tartalmat. A vállalati keresőmegoldásokban az a lényeg, hogy a felhasználó könnyedén
kapja meg a szükséges információt a kereső által már ismert forrásokból.
Ha valamely szűk szakterületi témáról van szó, a felhasználó általában ismeri
a potenciális forrásokat, ha viszont az állandóan változó interneten bárhol lehet
a minket érdeklő dolog, akkor bizony próbálkozni kell. Ebben segíthetnek a keresőszolgáltatások;
amikor ugyanis feljön egy kifejezéshez rendelt találat, akkor a kapott lista intuíciót
is sugall, hogy merre érdemes továbbhaladni.
Más kérdés, hogy amikor a felhasználó csak keres és keres, és nem talál semmit,
mikor hagy fel az erőfeszítéssel. Nos, ez kultúra kérdése; Amerikában például
sokkal tovább és lelkesebben keresnek az emberek, mint Európában. Felmérések szerint
ha valaki a vén kontinensen egy általános keresésre (például a legolcsóbb repülőjegy
A-ba) az első találati helyen 35 másodpercen belül nem kap releváns választ, megy
a második találati helyre, ám a harmadik-negyedik sikertelen kísérlet után feladja
a keresést, és veszi a telefont.
A válaszidő egyébként sok mindentől függ, többek között annak az útvonalnak a
hosszától, amelyen az információ eljut hozzánk. Ha külső forrásból érkezik az
információ, az internet pillanatnyi sebessége és például a közbeeső szerverrendszerek
és útválasztók állapota befolyásoló tényező lehet. Ha házon belüli a keresett
adat, akkor a pillanat töredéke alatt megjelenhet a találat a nagysebességű belső
hálózat jóvoltából.
Saját keresőmegoldás esetén a teljesítmény egyébként többek között azon múlik,
hogy a keresőmotor mögött milyen masszív a számítógép, azaz milyen gyors a processzora,
és mekkora a memóriája az indexfájlok számára. Mindazonáltal mit sem ér az izmos
hardver, ha nem intelligens keresővel dolgozunk – ebben az esetben ugyanúgy akár
órákat is tölthetünk el kereséssel, eredmény nélkül.
Adatvédelem
A személyre irányuló keresések eredménye, illetve ezek felhasználása több esetben
felvethet adatvédelmi kérdéseket, így mielőtt adatgyűjtésbe kezdenénk valakiről,
érdemes tájékozódni a vonatkozó jogszabályokról – figyelmeztet Jóri Andrásadatvédelmi biztos.
A problémakört az egyéni felelősség és a keresőgépek szemszögéből is meg lehet
közelíteni. Egyrészt ha valaki tudatosan kerülni akarja, hogy róla adatok jelenjenek
meg az interneten, a megfelelő technológia, illetve eljárás alkalmazásával (például
ennek megfelelően címkézi fel az oldalát) többé-kevésbé csökkentheti a kockázatot.
Ám ha egyszer már nyilvánosságra került valami, akkor nagyon nehéz fellépni ellene,
különösen, ha a magyar jog hatálya alá nem tartozó kiszolgálón találhatók az adatok.
| Környezetet rombol a keresés |
|
Két keresés a Google honlapján annyi széndioxid keletkezésével jár, mint felforralni
egy teáskanna vizet – állapította meg a Harvard Egyetem egyik fizikusa. Az aggodalom
egy másik kutatási eredményre vezethető vissza, nevezetesen arra, hogy globálisan
az it-szektor annyi üvegházhatású gáz termelt, mint az összes légitársaság összesen.
A harvardi fizikus kimutatta: egy tipikus Google-keresés közel 7 gramm széndioxidot
termel. A második keresés esetén ez a szám már a duplájára növekszik, ez a mennyiség
pedig már megegyezik egy elektromos teafőző által generált széndioxiddal – ennyi
jut az edényre abból a kibocsátásból, amely az elektromos áram termeléséhez szükséges
égésből származik.
A Google keresőmotorja gyors találatot ad ugyan minden esetben, ám ez annak köszönhető,
hogy egy időben számos adatközpontot használ kereséskor, s ezzel több széndioxidot
bocsát ki, mint versenytársai.
Az is kiderült, hogy minden egyes online töltött percben 0,02 gramm széndioxidot
termelünk. Ez nem sok, viszont ha azt vesszük, hogy szakértők napi 200 millióra
teszik az internetes keresések számát, már jó kis mennyiség jön ki.
|
|
A keresőgépekkel kapcsolatos érdekes felvetés, hogy mi történik azokkal az adatokkal,
amelyeket beírunk a keresőmezőbe, s a keresőrendszer megtartja? A szolgáltatók
ugyanis a keresési adatokat, ip-címhez kötve, egy ideig megőrzik. Sokan azt gondolják,
ezek nem érzékeny adatok, holott nem így van, mint az ki is derült egy amerikai
példából. 2006-ban az egyik tengerentúli szolgáltató közzétette a keresésekről
szóló adatbázisát, gondolván, ezzel is növeli oldalainak hatékonyságát. Egyes
felhasználók viszont elkezdték visszakövetni a kereséseket – s bár pusztán az
ip-cím alapján nem lehetett volna eljutni a kereső személyéhez, mégis megtörtént,
mivel sokan saját nevükre vagy lakhelyük valamilyen jellemzőjére keresnek. Mindez
oda vezetett, hogy a nagy nyilvánosság elé került az egyes személyek titkolni
akart barangolása a weben, sok esetben személyes tragédiákat okozva. Ezért az
Európai Unió adatvédelmi biztosai – széles körű tájékozódás után – kimondták:
a szolgáltatók legfeljebb 6 hónapig őrizhetik meg a keresési adatokat.
„Szakszolgálatok”
A személyes adatok jogosulatlan felhasználásáról a jogszabályok világosan intézkednek,
s kellő szankciókat tartalmaznak. Nem lehet tehát például közösségi oldalon más
nevében profilt létrehozni, oda képet, (esetleg valótlan) információt feltölteni
az illető hozzájárulása nélkül, vagy valakiről fotókat letölteni és máshol, esetleg
negatív kommentárral közzétenni. Ha kiderül a turpisság – esetleg az adatvédelmi
biztos közreműködésével –, a szolgáltató természetesen törli a hamis profilt –
feltéve, ha a szerver Magyarországon vagy Európában van.
A felhasználó adatainak védelmére a közösségi oldal üzemeltetőjét „fel lehet
kérni”. Például regisztráláskor ne legyen kötelező megadni az érzékenyebb adatokat,
vagy technológiai eszközzel akadályozza meg a fényképek letölthetőségét.
No de mi van akkor, ha egy ország hírszerző vagy nemzetbiztonsági szerve gyűjt
titokban adatokat személyekről? Ez is a személyiségi jogok korlátozását jelenti
ugyan, de a jogszerűség a nemzetbiztonsági törvény betűjétől függ. Adott esetben
megengedett az adatgyűjtés nyílt forrásból, tehát a közösségi oldalakról is. Ha
mégis kiderül, hogy jogszerűtlen volt a kutakodás, akkor az adatvédelmi biztos
megvizsgálhatja a nemzetbiztonsági szolgálatok tevékenységét.
Egyértelműen adatvédelmi kérdés viszont az, amikor egy „normál” szervezet kezd
el gyűjteni adatokat magánszemélyekről, azok hozzájárulása nélkül. Ennek tipikus
esete, ha egy vállalat személyzetise a felvételi elbeszélgetés előtt közösségi
oldalakról szed össze döntést befolyásoló információkat egy jelentkezőről. Más
kérdés, hogy ezt a gyakorlatban nem lehet ellenőrizni, ezért mindenkinek jól meg
kell gondolnia, milyen adatokat tesz közzé magáról.