• Nem Talált Eredményt

Gy˝ ujt˝olapok ´es Tekint´elyek – a HITS algoritmus

In document Magyar nyelv˝ u irodalom (Pldal 195-199)

7. Klaszterez´ es 164

9.2. Webes keres´es

9.2.1. Gy˝ ujt˝olapok ´es Tekint´elyek – a HITS algoritmus

Az 1999-ben Jon Kleinberg ´altal publik´alt Gy˝ujt˝olapok ´es Tekint´elyek (Hubs and Autho-rities) m´odszere [75] a lapok linkstrukt´ur´aj´at haszn´alja fel. A linkstrukt´ura mellett sz´amos inform´aci´o ´allhat rendelkez´es¨unkre, amelyek seg´ıts´eg¨unkre lehetnek az oldalak fontoss´ag´anak meghat´aroz´as´aban. A l´atogat´asok sz´am´at m´ar eml´ıtett¨uk. Probl´ema vele, hogy az oldalak eleny´esz˝o r´esz´et figyelik audit´al´o szoftverek.

Az oldalon elhelyezett metaadatok, kulcsszavak, az oldal le´ır´asa, de ezenk´ıv¨ul a sz¨oveg-ben kiemelt szavak (d˝olt bet˝u, vastag bet˝u, villog´o bet˝u . . . ) szint´en seg´ıthetnek a k´erd´ehez kapcsol´od´as m´ert´ek´enek eld¨ont´es´eben. A tanulm´anyban ezek szerep´et nem vessz¨uk figyelembe.

Jel¨olj¨uk σ-val a k´erd´est, amire a v´alaszt keress¨uk. Az algoritmus f´azisai a k¨ovetkez˝ok:

I. Mσ (mag)laphalmaz kiv´alaszt´asa hagyom´anyos keres˝ovel.

II. Mσ b˝ov´ıt´es´evel b´azis lap-r´eszgr´af konstru´al´asa. Jel¨olj¨uk ezt a b´azist Bσ-val.

III. A σ-hoz tartoz´o gy˝ujt˝olapok ´es tekint´elyek (szimult´an) kisz˝ur´ese Bσ-b´ol.

A gy˝ujt˝olapoknak ´es tekint´elylapoknak nem adunk pontos matematikai defin´ıci´ot. Min-den oldalhoz egy gy˝ujt˝olap- ´es egy tekint´ely´ert´eket fogunk rendelni. Min´el nagyobbak ezek az ´ert´ekek, ann´al ink´abb tekint¨unk egy oldalt az adott k´erd´eshez tartoz´o gy˝ujt˝o-, illetve te-kint´elylapnak. Intuit´ıv defin´ıci´oja a k´et fogalomnak a k¨ovetkez˝o lehetne: gy˝ujt˝olap az olyan lap, ami sok tekint´elylapra mutat, tekint´elylapok pedig azok, amire sok gy˝ujt˝olap mutat. Ezek szerint a gy˝ujt˝olapok a σ szempontj´ab´ol ´ert´ekes linkek gy˝ujtem´enye, a tekint´elylapok pedig a σ k´erd´eshez kapcsol´od´o ´ert´ekes inform´aci´okat tartalmaz´o lapok. P´eld´aul az AMS honlap-ja egy matematikai gy˝ujt˝olap, Jeffrey D. Ullman adatb´any´aszatr´ol sz´ol´o jegyzetv´azlata pedig tekint´elylap, amennyiben σ=”adatb´any´aszati algoritmusok”. Amikor egy k´erd´est feltesz¨unk, akkor els˝osorban a v´alasz ´erdekel benn¨unket, nem pedig az olyan oldalak, amik sok hasznos ol-dalra mutatnak. Az eredm´eny szempontj´ab´ol a tekint´elyoldalak a fontosak. Ezek megtal´al´as´ahoz gyakran a gy˝ujt˝ooldalakon kereszt¨ul vezet az ´ut, ´ıgy ´erdemes ˝oket egy¨utt keresni. Most pedig n´ezz¨uk r´eszletesen az algoritmus egyes l´ep´eseinek m˝uk¨od´es´et.

Mσ mag meghat´aroz´asa

Az algoritmus kiindul´as´at k´epez˝o weboldalaknak egy hagyom´anyos keres˝o ´altal σ k´erd´esre kiadott els˝o t darab lapj´at vessz¨uk. Ez a kezd˝ok´eszlet azonban nem mentes a hagyom´anyos keres˝orendszerek ´altal adott hib´akt´ol. Egyr´eszr˝ol lehet, hogy fontos oldalak nincsenek benne a tal´alati list´aban. A ”g´epkocsi gy´art´ok” k´erd´esre p´eld´aul nem fogj´ak kiadni a Honda hon-lapj´at, mert a lapon ilyen sz´o¨osszet´etel nincsen. M´asr´eszr˝ol sok olyan oldalt is gener´alni fog, amelyek nem kapcsol´odnak a t´em´ahoz. Ennek t¨obb oka is lehet, p´eld´aul az, hogy a k´erd´esnek t¨obb ´ertelme is van (gondoljunk itt a Java nev˝u szigetre), vagy az egyes oldalak

”hazudnak”, azaz olyan tartalmat ´all´ıtanak magukr´ol, amelyek nem igazak(pl.:mp3, free holiday . . . ). A fenti h´atr´anyok ellen´ere elmondhatjuk, hogy ennek a magnak a

”k¨ornyezete” m´ar hasznos in-form´aci´okban gazdag lesz.

Bσ b´azis l´etrehoz´asa

A gy˝ujt˝olapokat ´es a tekint´elyoldalakat a b´azisb´ol fogjuk kinyerni, ´ıgy ezzel szemben az al´abbi elv´ar´asaink vannak:

I. Ne legyen t´ul nagy!

II. Legyen fontos lapokban gazdag !

III. Tartalmazza a σ-hoz relev´ans lapokat (vagy azok legt¨obbj´et) !

Bázis

Mag

9.3. ´abra. B´azis gener´al´asa a magb´ol

A tesztel´es sor´an kapott eredm´enyek azt mutatt´ak, hogy az al´abbi egyszer˝u algoritmus a gyakor-latban j´ol m˝uk¨odik. Induljunk ki az el˝oz˝o pontban defini´alt magb´ol(azaz legyenBσ=Mσ), majd adjuk hozz´a az ¨osszes olyan oldalt, amelyre mutat link valamely Bσ-beli oldalr´ol. Ezen k´ıv¨ul vegy¨ukBσ-hoz azokat az oldalakat, amelyekr˝ol mutat link valamelyBσ-beli lapra. Elk´epzelhet˝o, hogy n´epszer˝u oldal is vanBσ-ban, amelyre rengeteg oldal mutathat, ez´ert egy oldal maximum egy el˝ore meghat´arozott konstans (d) sz´am´u ´uj lap felv´etel´et

”okozhatja”. Ez´ert ha egy lapra d-n´el t¨obb lap mutat, akkor v´alasszunk ezek k¨oz¨ul v´eletlenszer˝uen ddarabot. T¨or¨olj¨uk a b´azisb´ol a navig´aci´ot szolg´al´o ´eleket (pl.: vissza az el˝oz˝o oldalra) ´ugy, hogy csak a k¨ul¨onb¨oz˝o hosztok k¨oz¨otti ´elek maradjanak. Itt azt a felt´etelez´est tett¨uk, hogy a hosztokat meg lehet k¨ul¨onb¨oztetni URL-j¨uk alapj´an (Ez nyilv´an nem t¨ok´eletes megold´as, gondoljunk csak a unix alap´u rendsze-rekre, ahol az egyes felhaszn´al´ok honlapj´anak domainnevei megegyeznek. Nem k¨onny˝u k´erd´es az, hogy egy adott domaint mikor tekints¨unk csak egy oldalnak, illetve mikor osszuk fel t¨obbre.

Kleinberg tapasztalata szerint a t= 200, d= 50 mellett a b´azis m´erete 1000 ´es 5000 k¨oz¨ott lesz.

Tekint´elyek kinyer´ese

A tesztek alapj´an a b´azis tartalmazni fogja a tekint´elyek nagy r´esz´et. Hogyan lelj¨uk meg ezeket a t¨obb ezer oldal k¨oz¨ul? Els˝o ¨otlet lehetne, hogy a nagy be-fok´u cs´ucsok reprezent´alj´ak a keres´eshez kapcsol´od´o fontos oldalakat. Ez a megold´as azonban felem´as eredm´enyt ad: a j´o oldalak mellett lesznek ´ugynevezett

”univerz´alisan n´epszer˝u” oldalak is. Ezekre jellemz˝o, hogy σ-t´ol f¨uggetlen¨ul a legt¨obb k´erd´eshez tartoz´o b´azisban megtal´alhat´oak. P´eld´aul, ha σ=”java”, akkor a Bσ-ban a legnagyobb be-fok´u cs´ucsokhoz tartoz´o oldalak a

I. www.gamelan.com II. java.sun.com

III. amazon.com

IV. karibi vak´aci´okat hirdet˝o oldal

Az utols´o k´et oldalt valamilyen automatikus m´odon ki kellene sz˝urni.

Kleinbergnek a k¨ovetkez˝o sz˝ur˝o ¨otlete t´amadt. A σ k´erd´eshez tartoz´o tekint´elyeknek nagy be-fokon k´ıv¨ul jellemz˝oje, hogy nagy az ´atfed´es azokban a laphalmazokban, amik r´ajuk mutat-nak. Ezekben benne lesznek a t´ema gy˝ujt˝olapjai. A k¨ovetkez˝o ´abra szeml´elteti a tekint´elyek ´es az univerz´alisan n´epszer˝u lapok k¨oz¨otti k¨ul¨onbs´eget. A t´ema gy˝ujt˝olapjai ´es tekint´elyei ´altal´aban

Tekintélyek Univerzálisan népsz. lapok

9.4. ´abra. Topol´ogiai k¨ul¨onbs´eg a tekint´elyek ´es az univerz´alisan n´epszer˝u lapok k¨oz¨ott egy s˝ur˝u p´aros gr´afot alkotnak, m´ıg az univerz´alisan n´epszer˝u lapokra szab´alytalanul, ¨ossze-vissza mutatnak a linkek.

A s˝ur˝u p´aros gr´af megtal´al´asa a k¨ovetkez˝ok´eppen t¨ort´enik. LegyenCaBσ weblaphalmazhoz tartoz´o szomsz´edoss´agi m´atrix, teh´atcij= 1 hai→j,0 k¨ul¨onben. Ez hasonl´ıt a Page Rank algo-ritmusn´al ismertetett A m´atrixra, azzal a k¨ul¨onbs´eggel, hogy nincs sztochasztikusan sk´al´azva.

Rendelj¨unk minden laphoz egy gy˝ujt˝olap, illetve egy tekint´elylap ´ert´eket, teh´at vezess¨uk be a g= (. . . , gi, . . .), gi≥0

t= (. . . , ti, . . .), ti≥0

gy˝ujt˝o-, illetve tekint´ely vektorokat, amelyek legyenek norm´alt vektorok, teh´at ||g||=||t||= 1.

A k´et vektorra a tekint´ely ´es gy˝ujt˝olap intuit´ıv defin´ıci´oja miatt legyen ´erv´enyes a k¨ovetkez˝o k´et szab´aly:

g=λCt t=µCTg

azaz egy lap gy˝ujt˝o´ert´eke az ´altala mutatott tekint´ely´ert´ekeinek ¨osszege- λ-val sk´al´azva, ´es egy lap tekint´ely´ert´eke azon lapok gy˝ujt˝o´ert´ekeinek ¨osszege, amelyek r´a mutatnak-µ-vel sk´al´azva.

A k´et egyenletet egym´asba ´ırva :

g=λµCCTg t=λµCTCt

Hasonl´oan, mint az oldalak rangj´at a Page Rank algoritmusn´al, a g ´es t vektorokat is iterat´ıvan hat´arozzuk meg. A l´ep´esek:

I. t(0)=g(0)=

1

|Bσ|...

1

|Bσ|

II. ˆt(i+1)←CTCt(i) ´es ˆg(i+1)←CCTg(i) III. t(i+1)||ˆttˆ(i+1)(i+1)|| ´es g(i+1)||ggˆˆ(i+1)(i+1)||

IV. ha teljes¨ul a le´all´asi felt´etel, akkor STOP, ha nem GOTO 2

A le´all´asi felt´etelr˝ol hasonl´o mondhat´o el, mint a Page Rank algoritmusn´al: nem g ´es t pon-tos ´ert´eke ´erdekel benn¨unket, hanem az els˝o n´eh´any, legnagyobb tekint´ely´ert´ekkel rendelkez˝o oldal. A tapasztalati eredm´enyek azt mutatt´ak, hogy 20 iter´aci´o ut´an a legnagyobb 5-10 te-kint´ely´ert´ekkel rendelkez˝o oldal m´ar stabiliz´al´odik.

A k´ıs´erleti eredm´enyek mellett mindig hasznos, ha matematikai t´etelek is igazolj´ak azt, hogy az algoritmus v´eget fog ´erni, azazt(i) ´esg(i) konverg´alnak valahova. A k¨ovetkez˝o t´etel ezt a matematikai megalapoz´ast ny´ujtja. A t´etel bizony´ıt´asa a B f¨uggel´ekben tal´alhat´o.

9.3. t´etel. A fent defini´alt t(i) ´es g(i) sorozatok konverg´alnak nemnegat´ıv ´ert´ek˝u vektorokhoz.

Kleinberg m´odszere igen j´o eredm´enyt ´ert el l´enyeges oldalak kisz˝ur´es´en´el nagy tal´alati hal-mazokb´ol. P´eld´aul aσ=”Gates”-re, a legfontosabb oldalnak ahttp ://www.roadahead.com-ot tal´alta, majd ezek ut´an j¨://www.roadahead.com-ottek a Microsofthoz kapcsol´od´o oldalak. A gy˝oztes oldal Bill Gates k¨onyv´enek hivatalos weblapja, amit az AltaVista csak a 123. helyre rangsorolt.

In document Magyar nyelv˝ u irodalom (Pldal 195-199)