Dokumentumok csoportos´ıt´asa - Id˝ osorok elemz´ ese 162

8. Id˝ osorok elemz´ ese 162

9.3. Dokumentumok csoportos´ıt´asa

Ahogy azt az adatb´any´aszati r´esz vonatkoz´o fejezete is kiemeli (ld. a ??. szakaszt a ??.

oldalon), a csoportos´ıt´as, avagyklaszterez´es sokban hasonl´ıt az oszt´alyoz´ashoz, ugyanakkor k´et alapvet˝o elt´er´est mutat, ekkor ugyanis nem ismert

I. a dokumentumok c´ımk´eje, tov´abb´a a feladat elv´egz´ese ut´an sem jellemezhet˝ok ´altal´aban a csoportok automatikusan c´ımk´ekkel ;

II. hogy a dokumentumhalmaz h´any csoportot alkot.

15http://about.reuters.com/researchandstandards/corpus/

Osszefoglal´oan : t¨obbnyire nincsen olyan referenciaadat amihez hasonl´ıtani lehetne a csopor-¨ tos´ıt´as eredm´eny´et, vagyis tanul´asi szempontb´ol a klaszterez´esfel¨ugyelet n´elk¨uli tanul´o m´odszer.

A csoportos´ıt´o algoritmusokat ez´ert akkor alkalmazzuk, amikor nem ´all rendelkez´esre r¨ogz´ıtett kateg´oriarendszer (taxon´omia) a hozz´atartoz´o tanul´oadatokkal.

9.3.1. Sz¨ ovegklaszterez´ es jellemz˝ o feladatai ´ es probl´ em´ ai

A csoportos´ıt´o elj´ar´asok teh´at hasonl´o t´ıpus´u feladatok megold´as´ara alkalmasak mint az oszt´alyoz´ok. B´ar a kezdeti motiv´aci´ot az inform´aci´o-visszakeres˝o rendszerek hat´ekonys´ag´anak n¨ovel´ese jelentette [174], az ut´obbi ´evekben ink´abb az internetes ´es intranetes keres´esi fel-adatok t´amogat´asa v´alt a jellemz˝o c´ell´a. Sz¨ovegklaszterez˝o elj´ar´ast alkalmaztak dokumen-tumgy˝ujtem´enyek b¨ong´esz´es´enek t´amogat´as´ara [?], illetve internetes keres´esek eredm´enyeinek csoportokba szervez´es´ere [? ]. Szint´en gyakori probl´ema dokumentumok hierarchikus klaszte-rekbe rendez´ese [98], az internetes dokumentumokhoz automatikus taxon´omia gener´al´asa¹⁶, tov´abb´a m´ar megl´ev˝o taxon´omia oszt´alyok dokumentumainak tov´abbi csoportos´ıt´asa, amelyet azt´an fel lehet haszn´alni a taxon´omia finom´ıt´as´ara.

Ha a feladat nem numerikus, hanem sz¨oveges adatok csoportos´ıt´asa, akkor ebb˝ol ad´od´oan a k¨ovetkez˝o jellegzetess´egeket kell kezeli [?] :

– Az adatok dimenzi´osz´ama legal´abb 10 000-es nagys´agrend˝u. Mivel a dokumentumokat reprezent´al´o vektorok viszont rendk´ıv¨ul ritk´ak, a m´odszereknek ezt a dichot´omi´at tudnia kell kell˝oen kezelni.

– A dokumentumgy˝ujtem´enyek nagy m´erete (k¨ul¨on¨osen a vil´agh´al´o eset´eben) miatt a m´odszereknek hat´ekonyan kell m˝uk¨odnie, ´es sk´al´azhat´onak kell lennie.

– A klaszterek neveinek ´erthet˝onek kell lennie, mivel ezek t´aj´ekoztatj´ak a felhaszn´al´ot (pl.

b¨ong´esz´es sor´an) a csoportba tartoz´o dokumentumok tartalm´ar´ol.

Sz¨ovegklaszterez´es ´altal´anos feladata ezek alapj´an nagy m´eret˝u dokumentumhalmaz eleme-it csoportokba rendezni ´ugy, hogy azonos csoportba ker¨uljenek a hasonl´o t´em´aval foglalkoz´o dokumentumok.

9.3.2. Reprezent´ aci´ o

A dokumentumok reprezent´al´as´ara a szok´asos vektort´er-modellt alkalmazzuk (9.1. szakasz).

A dokumentumokat ´altal´aban szavak szintj´en dolgozzuk fel, a sz´ot´arba pedig a nemtrivi´alis szavak kanonikus alakjai ker¨ulnek. A sz¨ovegklaszterez˝o m´odszerek a dokumentumok tartal-mi hasonl´os´ag´at a benn¨uk szerepl˝o szavak egy¨uttes el˝ofordul´asai alapj´an hat´arozz´ak meg. A vektort´er-modellben ez a feladat a dokumentumvektorok t´avols´ag´anak hasonl´os´agi m´ert´ekek seg´ıts´eg´evel val´o meghat´aroz´as´at jelenti. Mivel dokumentumvektorokban t´arolt ´ert´ekek folyto-nosak, ez´ert a ??. pontban ismertetett m´ert´ekek alkalmasak a hasonl´os´ag, ill. k¨ul¨onb¨oz˝os´eg vizsg´alat´ara — sz¨ovegklaszterez´es eset´en az euklideszi- (ld. (??)) m´as n´even koszinusz-t´avols´agot haszn´aljuk leggyakrabban.

16Awww.yahoo.com-hoz hasonl´o k¨onyvt´ar-strukt´ura automatikus fel´ep´ıt´ese.

9.3.3. Hat´ ekonys´ ag m´ er´ ese

A csoportos´ıt´as min˝os´eg´enek vizsg´alat´at k´et t´ıpus´u m´ert´ekkel lehet vizsg´alni. Az els˝o t´ıpusba az ´un. bels˝o m´ert´ekek tartoznak, amelyek nem haszn´alnak fel k¨uls˝o tud´ast a csoportos´ıt´as j´os´ag´anak meghat´aroz´as´ara. A m´asodik t´ıpusba a k¨uls˝o m´ert´ekek tartoznak, amelyeket akkor lehet alkalmazni, ha rendelkez´esre ´allnak a dokumentumok oszt´alyc´ımk´ei, ekkor ezeket ha-sonl´ıtjuk ¨ossze a c´ımk´eket a klaszterez˝o ´altal meghat´arozott csoportokkal.

A bels˝o m´ert´ekek p´eld´aul a csoportok bel¨uli k¨ozels´eg ´es acsoportok k¨ozti t´avols´ag m´ert´ekek k¨ul¨onb¨oz˝o t´ıpusai, amelyeket a ??. pont ismertet. K¨uls˝o m´ert´ekek k¨oz¨ul az entr´opi´at ´es az F-m´ert´ek csoportos´ıt´asn´al alkalmazott verzi´oj´at t´argyaljuk, amelyeket a 9.3.4. szakaszban a m´odszerek ki´ert´ekel´es´en´el haszn´alunk.

Az entr´opia [?] m´ert´ekn´el el˝osz¨or az oszt´alyok adateloszt´asi ´ert´ek´et sz´amoljuk ki, azaz min-den j csoportra meghat´arozzuk annak a pij val´osz´ın˝us´eg´et, hogy e csoport eleme azi oszt´alyba tartozik. A p_ij ´ert´ek seg´ıts´eg´evel a j klaszter entr´opi´aj´at a

Ej=− XC

pijlog(pij) (9.9)

kifejez´es adja meg, ahol cii∈ [1, C] jel¨oli a kateg´ori´akat. V´eg¨ul a csoportos´ıt´as entr´opi´aj´at a ??tm :eq :entropy) ´ert´ekek csoportm´eret szerint s´ulyozott ´atlagak´ent kapjuk meg :

E=− XK

j=1

njEj

N , (9.10)

ahol K a csoportok sz´ama, nj a j-edik csoport elemsz´ama, N pedig a dokumentumok sz´ama.

Egy m´odszer ann´al jobb min´el kisebb az entr´opi´aja.

Az F-m´ert´eket csoportos´ıt´asn´al az al´abbi m´odon sz´amoljuk [? ]. Legyen adott a j csoport,

´es azi oszt´aly. Ekkor aj csoporthoz tartoz´o felid´ez´es ´es pontoss´ag a

R(i, j) =nij/ni P(i, j) =nij/nj (9.11) k´epletekkel sz´amolhat´o, ahol nij az j csoportban l´ev˝o i oszt´alybeli elemek sz´ama. A j cso-portra vonatkoz´o F-m´ert´eket a k´et mennyis´eg (9.6) kifejez´es szerinti kombin´aci´ojak´ent kapjuk : F1(i, j) = (2R(i, j)P(i, j))/(R(i, j) +P(i, j)), az ¨osszes´ıtett F-m´ert´ek pedig s´ulyozott ´atlagk´ent

´all el˝o:

F1= XC

N max

j∈[1,K](F1(i, j)). (9.12)

9.3.4. Sz¨ ovegklaszterez˝ o elj´ ar´ asok

Ebben a szakaszban a sz¨oveges adatok csoportos´ıt´asa alkalmazott hierarchikus ´es partici-on´al´o elj´ar´asokat tekintj¨uk ´at.¹⁷

A m´odszerek ¨osszehasonl´ıt´as´an´al k¨or¨ultekint˝oen kell elj´arni, ´es csak akkor lehet valamely elj´ar´ast egy m´asikn´al jobbnak tekinteni, ha k¨ul¨onb¨oz˝o m´ert´ekek ´es korpuszok eset´en a legt¨obb esetben jobb eredm´enyt ad.

17Term´eszetesen ezen k´ıv¨ul m´eg sok m´as elj´ar´as is ismert, t¨obbek k¨ozt val´osz´ın˝us´egi ´es fuzzy alap´u m´odszerek, de ezek ismertet´ese meghaladj´ak e k¨onyv kereteit.

Hierarchikus klaszterez˝ok

A [? ] tanulm´anyban h´arom egyes´ıt˝o hierarchikus klaszterez˝ot hasonl´ıtanak ¨ossze nyolc k¨ul¨onb¨oz˝o korpuszokon (ld. 9.3.5. pontot is) ; a m´odszerek csak az egyes´ıtend˝o p´arok kiv´alaszt´as´aban k¨ul¨onb¨oznek. A vizsg´alt elj´ar´asok a centroid kapcsol´od´as, centroid–egyszer˝u kapcsol´od´as,¹⁸ ´es azUPMGA m´odszer [?]. Ez ut´obbi a s(x, y) =

d~1∈x, ~d2∈ycos(d~1, ~d2)

nx,ny hasonl´os´agi m´ert´eket alkalmazza.

A m´odszerek k¨oz¨ul az UPGMA adja a legjobb eredm´enyt az F-m´ert´ek szerint az ¨osszes vizsg´alt gy˝ujtem´eny eset´en, b´ar a m´asik k´et m´odszer sem ad l´enyegesen rosszabb ´ert´ekeket.

Entr´opia m´ert´ek szerint a UPGMA ´es a centriod-egyszer˝u (CE) kapcsol´od´as k¨ozel azonos eredm´enyeket ad, m´ıg a centroid kapcsol´od´as a m´asik kett˝on´el l´enyegesen rosszabb. Megfigyel-het˝o, hogy a kezdeti f´azisban m´eg hasonl´o eredm´enyeket ad mindh´arom m´odszer, de k´es˝obb a CE kezd t¨obb hib´at v´eteni [? ]. Ebb˝ol meg´allap´ıthat´o, hogy a vizsg´alt elj´ar´asok k¨oz¨ul az UPGMA b´ır a legkedvez˝obb tulajdons´agokkal.

K-´atlag klaszterez˝ok

A particion´al´o algoritmusok egyik fajt´aja a k-´atlag t´ıpus´u klaszterez˝o (ld.??. pont). El˝osz¨or ennek egy sz¨ovegcsoportos´ıt´asra hat´ekonyan alkalmazhat´o m´odos´ıt´as´at, akett´eszel˝o k-´atlag (bi-secting k-means) elj´ar´ast ismertetj¨uk, majd ¨osszehasonl´ıtjuk az eredeti k-´atlag elj´ar´assal.

Az algoritmus a teljes dokumentumhalmazb´ol indul ki, ´es a k¨ovetkez˝o l´ep´esekb˝ol ´all : I. V´alasszunk ki egy felosztand´o klasztert.

II. Osszuk pontosan k´et r´eszre a k-´atlag elj´ar´as seg´ıts´eg´evel (kett´eszel˝o l´ep´es).

III. V´egezz¨uk el a 2. l´ep´est i-szer¹⁹, ´es v´alasszuk ki azt a v´ag´ast, amelyik a legnagyobb cso-porton bel¨uli k¨ozels´eget adja.

IV. Ism´etelj¨uk meg a fenti 3 l´ep´est, ameddig a sz¨uks´eges csoportsz´amot nem ´erj¨uk el.

Az els˝o l´ep´esben t¨obb m´odon v´alaszthatjuk ki a felosztand´o klasztert ; ez lehet pl. legnagyobb m´eret˝u csoport, vagy a legkisebb csoporton bel¨uli k¨ozels´eggel b´ır´o csoport.

A kett´eszel˝o k-´atlag m´odszer el˝onye, hogy mind hierarchikus mind elk¨ul¨on¨ul˝o csoportokat lehet vele gener´alni, teh´at szigor´uan v´eve az elj´ar´as feloszt´o hierarchikus klaszterez˝onek te-kinthet˝o. A m´odszern´el lehet˝os´eg van a csoportok finom´ıt´as´ara is²⁰, ha az eredm´eny¨ul kapott klaszterekb˝ol kiindulva a k-´atlag elj´ar´ast lefuttatjuk. Az elj´ar´as id˝oig´enye — finom´ıt´assal is — line´aris a dokumentumok sz´am´anak f¨uggv´eny´eben.

A m´odszert a [?] k¨ozlem´enyben ¨osszehasonl´ıtott´ak az eredeti k-´atlag elj´ar´assal ´es a UPGMA egyes´ıt˝o hierarchikus klaszterez˝ovel F-m´ert´ek ´es entr´opia t¨ukr´eben, amely alapj´an az al´abbiak

´allap´ıthat´ok meg :

– A kett´eszel˝o k-´atlag m´odszer mind a k-´atlag, mind az UPGMA m´odszern´el jobb a vizsg´alt 8 korpusz legt¨obbj´en (mindk´et m´ert´ek szerint).

18El˝osz¨or minden csoportra kisz´amolj´ak a csoporton bel¨uli hasonl´os´agot, majd azt a k´et csoportot vonj´ak

ossze, ahol as(z)−(s(x) +s(y)) ´ert´ek a legkisebb. Ittx´esy ¨osszevon´as´ab´ol keletkezikz csoport.

19K¨ul¨onb¨oz˝o centroidokb´ol kiindulva, mindig m´as ´es m´as lesz a k´et csoport.

20Nem csak ebben az esetben, hanem az ¨osszes hierarchikus klaszterez˝on´el, pl. UPGMA.

– Az UPGMA eredm´enyeinek k-´atlag m´odszerrel t¨ort´en˝o finom´ıt´asa l´enyegesen jav´ıt mindk´et m´ert´ek szerint az eredm´enyeken.

– Az eredeti k-´atlag m´odszer jobb eredm´enyeket ad, mint a alap ´es a finom´ıtott UPGMA elj´ar´as.

– Noha a k´et k-´atlag alap´u elj´ar´as eredm´enyei t¨obb fut´as ´atlagak´ent ´alltak el˝o, ezeknek a t¨obbsz¨or¨os fut´asi ideje sem ´eri el az egyes´ıt˝o hierarchikus UPGMA fut´asi idej´et, mivel egy fut´ason a k¨ul¨onbs´eg mintegy 80–100-szoros.

Az egyes´ıt˝o hierarchikus algoritmusok sz¨ovegklaszterez´esen val´o gyenge teljes´ıtm´eny´ere a magyar´azat a dokumentumok jellegzetess´eg´eben rejlik. Az oszt´alyozott sz¨ovegek alapj´an min-den oszt´alyhoz rendelhet˝o egy sz´ot´ar, amely a tipikus szavakat tartalmazza. Ugyanakkor vala-mely oszt´alyba es˝o dokumentum nemcsak oszt´aly´anak sz´ot´ar´ab´ol tartalmaz szavakat, r´aad´asul ezek az oszt´alysz´ot´arak a t¨obb´ertelm˝u szavak, vagy tematikusan k¨ozeli kateg´ori´ak eset´en ´at is fedhetnek.

Egy szavak dokumentumonk´enti eloszl´as´anak jellege miatt, gyakran el˝ofordul, hogy egy dokumentum legk¨ozelebbi szomsz´edja m´asik kateg´ori´aba tartozik. Az ilyen legk¨ozelebbi szomsz´edok ar´anya a vizsg´alt korpuszok eset´eben a 5 ´es 30% k¨oz¨ott volt ! Min´el t´avolabbi szomsz´edokat tekint¨unk, ez az ar´any term´eszetesen ann´al nagyobb lesz.

Az egyes´ıt˝o hierarchikus algoritmusok m˝uk¨od´es´enek jeleg´eb˝ol ad´od´oan, a m´odszer sor´an elk¨ovetett hiba nem korrig´alhat´o k´es˝obb. A k-´atlag m´odszerrel t¨ort´en˝o finom´ıt´as ez´ert jav´ıtja l´enyegesen az eredm´enyeket, mert ott lehet˝os´eg van dokumentumok csoportok k¨ozti moz-gat´as´ara is.

A k-´atlag m´odszerek ezen tulajdons´agukn´al fogva nem ´erz´ekenyek a hamis k¨ozeli szomsz´edok jelens´eg´ere, ´es ez´ert jobb eredm´enyt szolg´altatnak dokumentumokra.

A kett´eszel˝o k-´atlag m´odszer hat´ekony m˝uk¨od´es´enek az az oka, hogy ha az 1. l´ep´esben mindig a legnagyobb elemsz´am´u csoportot v´alasztjuk feloszt´asra, akkor a keletkez˝o csoportok m´erete hasonl´o lesz. Mivel jellemz˝oen a kis csoportok jobb min˝os´eg˝uek, viszont a ki´ert´ekel˝o f¨uggv´enyekben a nagyobb m´eret˝u csoportokat min˝os´ege nagyobb s´ullyal szerepel, ez´ert a

k-´atlag m´odszer — amely nagyon k¨ul¨onb¨oz˝o m´eret˝u csoportokat gy´art — ´altal´aban rosszabb eredm´enyt ad.

9.3.5. Dokumentumgy˝ ujtem´ enyek

A 9.3. t´abl´azatban klaszterez´esi algoritmusok elemz´es´ere haszn´alt dokumen-tumgy˝ujtem´enyek tal´alhat´ok. A re0 ´es re1 korpuszok a m´ar ismertetett Reuters-adatok r´eszhalmazak´ent ´allt el˝o (ld. 175. oldal). A tr31 ´es tr45 a TREC gy˝ujtem´enyben tal´alhat´oak²¹, a kateg´ori´ak c´ımk´ei pedig az ugyanott megadott fontoss´agi ´ert´ekek alapj´an adhat´ok meg²². Szint´en TREC gy˝ujtem´eny az fbis, illetve az la1 ´es la2, amelyek rendre a Foreign Broadcast Information Service ´es a Los Angeles Times kollekci´ok adatait tartalmazza.

Ez ut´obbi esetben az oszt´alyc´ımk´eket a cikkek rovatai alapj´an hat´arozt´ak meg. V´eg¨ul a wap gy˝ujtem´eny a WebACE projekt [? ] keret´eben a Yahoo ! taxon´omi´ab´ol ¨osszegy˝ujt¨ott felc´ımk´ezett dokumentumokat tartalmaz.

21TREC: Text REtrieval Conference.http://trec.nist.gov

22R´eszleteket ld. [?]; forr´ashttp://trec.nist.gov/data/qrels_eng/index.html

Szint´en t¨obb kutat´o haszn´alta a Classic3 tesztkorpuszt, amely 1400 rep¨ul´es¨ugyi rend-szereket (CRANFIELD) t´argyal´o, 1033 orvosi t´em´aj´u (MEDLINE), ´es 1460 inform´aci´o-visszakeres´essel foglalkoz´o (CISI) dokumentumot tartalmaz ²³.

9.3. t´abl´azat. Klaszterez˝o elj´ar´asok elemz´es´ere haszn´alt dokumentumgy˝ujtem´enyek adatai (a jel¨ol´esek felold´as´at ld. a sz¨ovegben) [?]

N´ev Forr´as

re0 Reuters-21578 1504 13 11 608 115.7 11465

re1 Reuters-21578 1657 25 10 371 66.3 3758

wap WebAce 1560 20 5 341 78.0 8460

tr31 TREC 927 7 2 352 132.4 10128

tr45 TREC 690 10 14 160 69.0 8261

fbis TREC 2463 17 38 506 144.9 2000

la1 TREC 3204 6 273 943 534.0 31472

la2 TREC 3075 6 248 905 512.5 31472

In document Magyar nyelv˝ u irodalom (Pldal 185-190)