Hierarchikus oszt´alyoz´as

12. Sz¨ovegb´any´aszat (Tikk Domonkos) 160

12.2. Oszt´alyoz´as

12.2.2. Hierarchikus oszt´alyoz´as

Egyszer˝u sz¨ovegoszt´alyoz´as eset´en a dokumentumok sz´am´anak n¨oveked´ese, ´es a lefedett t´emak¨or¨ok sokf´eles´ege ´atl´athatatlan m´eret˝u kateg´oriarendszert eredm´enyezhet. Ezt a probl´em´at a kateg´ori´ak hierarchiz´al´as´aval, azaz taxon´omi´aba rendez´es´evel k¨onnyen ´at lehet hidalni. Ennek be-vezet´ese az oszt´alystrukt´ura ´atl´athat´os´aga mellett algoritmikusan hat´ekonyabb elj´ar´asok alkalmaz´as´at is lehet˝ov´e teszi.

A teljes taxon´omi´an val´o oszt´alyoz´asi probl´em´at az algoritmusok kisebb oszt´alyoz´asi felada-tokra bontj´ak, ´ugy, hogy a taxon´omia minden bels˝o csom´opontj´ahoz rendelnek egyet. ´Altal´aban a moh´o algoritmust vagy annak valamilyen gyeng´ıtett v´altozat´at haszn´alj´ak. Ez az algoritmus egy adott csom´opontban megvizsg´alja, hogy az aktu´alis dokumentum annak melyik gyerekkateg´ori´aj´aba tar-tozik legink´abb, majd e kiv´alasztott kateg´ori´ab´ol kiindulva rekurz´ıvan folytat´odik ´es termin´al, ha lev´elhez ´er.

A na´ıv Bayes-m´odszert alkalmazza hierarchikus oszt´alyoz´asra a [100] munka, ahol a kev´es tanul´oadattal rendelkez˝o lev´elkateg´ori´ak param´etereit (sz´oel˝ofordul´asok ar´anya) az ´un. shrinkage (apad´as) statisztikai sim´ıt´o elj´ar´as seg´ıts´eg´evel hat´arozza meg a sz¨ul˝o kateg´ori´ak megfelel˝o adatait fel-haszn´alva. A m´odszer seg´ıts´eg´evel a moh´o algoritmus egyik jellegzetes hib´aja — ti. hogy a taxon´omia fels˝o szintj´en elk¨ovetett oszt´alyoz´asi hib´at m´ar nem lehet korrig´alni — nagy r´eszben kik¨usz¨ob¨olhet˝o.

10http://www.daviddlewis.com/resources/testcollections/reuters21578/

A neur´alis h´al´ozatok architekt´ur´aj´anak ´es a taxon´omi´aknak struktur´alis hasonl´os´aga k´ezenfekv˝ov´e teszi a neur´alis h´al´ozatok alkalmaz´as´at hierarchikus oszt´alyoz´as eset´en. A HITEC¹¹[148] oszt´alyoz´o egy ismeretlen d dokumentum kategoriz´al´as´an´al a taxon´omia gy¨oker´eb˝ol indulva szintenk´ent hat´arozza meg a legval´osz´ın˝ubb kateg´ori´at, azaz minden szintet a neur´alis h´al´o egy r´etege reprezent´al.

A v´egeredm´enyt a lev´elkateg´ori´ak szintj´en kapjuk. Az elj´ar´as k´et param´eter alkalmaz´as´aval b˝ov´ıti az egy szinten kiv´alasztott kateg´ori´ak k¨or´et, hogy a moh´o jelleg˝u k¨ovetkeztet´es el˝oz˝o bekezd´esben jel-zett hib´aj´at kik¨usz¨ob¨olje. Az egyikkel a kiv´alasztott kateg´ori´ak sz´ama adhat´o meg, a m´asikkal pedig az, hogy a kiv´alasztott kateg´ori´akn´al legjobbt´ol val´o mekkora elt´er´es engedhet˝o meg.

Hat´ekonys´agm´er´es

Taxon´omi´aba val´o oszt´alyoz´askor t¨obb lehet˝os´eg van a hat´ekonys´ag m´er´es´ere a taxon´omia kia-lak´ıt´as´at´ol f¨ugg˝oen. Amennyiben a dokumentumok csak lev´elkateg´ori´akba vannak besorolva, akkor az egyszer˝u oszt´alyoz´asn´al ismertetett m´ert´ekeket lehet alkalmazni a lev´elkateg´ori´ak ¨osszess´eg´ere (ld. 12.2.1. szakasz). Ez azonban n´emileg f´elrevezet˝o eredm´enyt is adhat, hiszen ´altal´aban ,,kev´esb´e rossz” az az oszt´alyoz´asi k¨ovetkeztet´es, amely egy lev´elkateg´oria helyett annak testv´er´et tal´alja meg (teh´at a sz¨uleik k¨oz¨osek), mint az amelyik a kateg´oriarendszer teljesen m´as ´ag´ahoz rendeli a doku-mentumot. Ha egy dokumentumot nemcsak a lev´elkateg´ori´ahoz tartoz´onak tekint¨unk, hanem annak

¨osszes sz¨ul˝oj´ehez is hozz´arendelj¨uk¹², akkor pontosabb k´epet kaphatunk az oszt´alyoz´as ´ert´ekel´esekor, felt´eve ha a teljes — teh´at nem csak lev´elszint˝u kateg´ori´akra — taxon´omi´ara sz´amoljuk a pontoss´ag, felid´ez´es, F-m´ert´ek ´ert´ekeit. K¨ul¨on¨osen indokolt ez akkor, ha vannak olyan dokumentumok, amelyek a taxon´omia k¨ozbens˝o csom´opontjaihoz vannak rendelve.

Valamelyest leegyszer˝us´ıtve az algoritmusok ´altal´aban a hierarchikus oszt´alyoz´ast a taxon´omia csom´opontjaira dekompon´alt egyszer˝u oszt´alyoz´asi feladatok sorozatak´ent oldj´ak meg. Ez´ert a ta-xon´omi´aba egyre lejjebb jutva, az oszt´alyoz´asi hib´ak ¨osszead´odnak, ´es egyre kev´esb´e lesz pontos az eredm´eny. Ez a tendencia j´ol megfigyelhet˝o, ha a szok´asos m´ert´ekeket (pontoss´ag, felid´ez´es, F-m´ert´ek)szintenk´entsz´am´ıtjuk ki.

Hierarchikus oszt´alyoz´as eset´en gyakran tal´alkozunk a t¨obbszint˝u oszt´alyoz´as probl´em´aj´aval, amikor teh´at egy dokumentumnak vannak els˝orend˝u, m´asodrend˝u stb. kateg´ori´ai. Itt a k´etszint˝u oszt´alyoz´as eset´evel foglalkozunk¹³. A szakirodalom az egyszer˝u oszt´alyoz´ast´ol elt´er˝o m´er˝osz´amokat javasol a hat´ekonys´ag m´er´es´ere erre az esetre, amelyeket c´elzottan a k´es˝obbiekben ismertet´esre ker¨ul˝o szabadalmi teszt-dokumentumgy˝ujtem´enyhez alak´ıtottak ki (ld. 12.4. ´abra).

I. Top:Az oszt´alyoz´o ´altal legnagyobb konfidencia´ert´ekkel meghat´arozott kateg´ori´at hasonl´ıtja a dokumentum els˝odleges kateg´ori´aj´ahoz.

II. Top 3:Az oszt´alyoz´o ´altal javasolt h´arom legnagyobb konfidencia´ert´ekkel b´ır´o kateg´ori´at ha-sonl´ıtja a dokumentum els˝odleges kateg´ori´aj´ahoz. Ha a h´arom k¨oz¨ul valamelyik tal´al, akkor az oszt´alyoz´as sikeresnek sz´am´ıt.

III. Any:Az oszt´alyoz´o ´altal legnagyobb konfidencia´ert´ekkel meghat´arozott kateg´ori´at hasonl´ıtja a dokumentumhoz tartoz´o ¨osszes (els˝odleges, m´asodlagos) kateg´ori´akkal. Ha valamelyikkel megegyezik, akkor az oszt´alyoz´as sikeresnek sz´am´ıt.

11http://categorizer.tmit.bme.hu

12A kateg´ori´ak sorozat´at ekkorkateg´oria¨osv´enynek nevezz¨uk.

13Term´eszetesen a taxon´omia szintjeinek sz´am´ara nem tesz¨unk megk¨ot´est.

12.4. ´abra. Magyar´azat a t¨obbszint˝u oszt´alyoz´asn´al alkalmazott m´ert´ekekhez (mc – f˝o kateg´oria; ic – egy´eb kateg´oria; A – oszt´alyoz´o eredm´enye; B – eredeti ´ert´ek) [46]

Ki´ert´ekel´es ´es p´eld´ak

Mivel a hierarchikus oszt´alyoz´assal csak a 90-es ´evek v´eg´et˝ol kezdtek el foglalkozni, ez´ert sok´aig nem volt olyan dokumentumgy˝ujtem´eny, amelyen a k¨ul¨onb¨oz˝o m´odszereket ¨ossze lehe-tett volna hasonl´ıtani. A kutat´ok ez´ert a k¨ul¨onb¨oz˝o korpuszokon tesztelt´ek algoritmusaikat, pl.

Reuters-gy˝ujtem´eny kateg´ori´ait¹⁴ rendezt´ek k¨ul¨onb¨oz˝o taxon´omi´akba [27, 35, 85, 156] ´es ezen v´egezt´ek m´er´eseiket. Ezek az eredm´enyek azonban csak hozz´avet˝olegesen hasonl´ıthat´oak ¨ossze, hiszen a 12.2.2. pontban ismertetett ir´anyelvek nem teljes¨ultek, s˝ot m´eg a kateg´ori´ak halmaza (ta-xon´omia) is t¨obbnyire elt´ert.

A szabadalmi hivatalokban t¨obb feladathoz is nagy seg´ıts´eget jelenthet a hierarchikus oszt´alyoz´ok alkalmaz´asa. A szabadalmak feldolgoz´asa sor´an a beadv´anyokat emberi munk´aval elemzik ´es tov´abb´ıtj´ak a megfelel˝o szakcsoporthoz, akik a szabadalom szakmai elb´ır´al´as´at ´es besorol´as´at elv´egzik. A szakcsoportok meghat´aroz´asa automatikuss´a tehet˝o, vagy fel¨ugyelt f´elautomatikus m´odon is v´egezhet˝o, mivel a oszt´alyoz´o elj´ar´asok pontoss´aga itt elegend˝o. Az oszt´alyoz´o rendszer tov´abbi seg´ıts´eget adhat a szak´ert˝oknek is, amennyiben javaslatokat ad a beadv´anyok kateg´ori´aj´anak a meghat´aroz´as´ahoz.

Term´eszetesen m´as int´ezm´eny is hat´ekonyan alkalmazhatja ezeket a m´odszereket, hiszen a bej¨ov˝o dokumentumok rendszerez´ese ´altal´anos feladat ak´ar ´allami, ¨onkorm´anyzati, vagy ipari int´ezm´enyekben is. Mindazon´altal a szabadalmi hivatalok eset´eben rendelkez´esre ´allnak a sz¨uks´eges el˝ofelt´etelek: a j´ol defini´alt, r¨ogz´ıtett taxon´omia ´es a nagy sz´am´u tanul´oadat.

Ennek az ´erdekelts´egnek is k¨osz¨onhet˝o, hogy az els˝o, kimondottan hierarchikus oszt´alyoz´as algo-ritmusok valid´al´as´ara alkalmasa teszt-dokumentumgy˝ujtem´enyt a WIPO (World Intellectual Property Organization – Nemzetk¨ozi Szellemi Tulajdonok Szervezet) bocs´atotta k¨ozz´e 2002 v´eg´en [46], amely angol nyelv˝u szabadalmi sz¨ovegeket tartalmazott, majd nem sokkal k´es˝obb n´emet nyelv˝u gy˝ujtem´enyt is k¨ozz´etettek [45]. Az angol gy˝ujtem´eny mintegy 75000 XML form´at´u dokumentumb´ol ´all, amely

¨osszesen 3 GB adat, a n´emet gy˝ujtem´eny ¨osszesen 110 ezer XML dokumentumot tartalmaz. A gy˝ujtem´enyek fel vannak osztva tanul´o- ´es tesztadatokra. A dokumentumok az IPC (Internatial Patent Classification – Nemzetk¨ozi Szabadalmi Oszt´alyoz´as) kateg´oriarendszer´enek¹⁵ fels˝o n´egy szintj´ebe (oszt´aly, szekci´o, alszekci´o, f˝ocsoport) vannak besorolva, amely kb. 5000 kateg´ori´at jelent ¨osszesen.

Minden dokumentumnak pontosan egy els˝orend˝u (f˝o) kateg´ori´aja ´es tetsz˝oleges sz´am´u, ´atlagosan 4–5 m´asodrend˝u kateg´ori´aja van.

Ezen a gy˝ujtem´enyen v´egzett ´atfog´o ¨osszehasonl´ıt´ast a 12.4. ´abr´an l´athat´o m´ert´ekekkel egy nem-zetk¨ozi kutat´ocsoport [47]. Munk´ajukban a na´ıv Bayes-elj´ar´as, a legk¨ozelebbi szomsz´edok m´odszer, az SVM, ´es a Winnow egy-egy hierarchikus oszt´alyoz´asra specializ´alt verzi´oj´at hasonl´ıtott´ak ¨ossze k¨ul¨onb¨oz˝o tanul´asi halmazok mellett. Az m´odszerek hat´ekonys´ag´at szekci´o ´es alszekci´o szintj´en vizsg´alt´ak, az eredm´enyeket a 12.2. tartalmazza. Ugyanezen a gy˝ujtem´enyen a neur´alis h´al´ozat alap´u HITEC-et is tesztelt´ek, ´es l´enyegesen jobb eredm´enyeket kaptak: a taxon´omi´aban egy szinttel lejjebb volt k´epes a HITEC a t¨obbi m´odszer ´altal egy szinttel feljebb el´ert eredm´enyre [149]. Ez alapj´an meg´allap´ıthat´o, hogy a taxon´omia topol´ogi´aj´at kihaszn´al´o neur´alis h´al´ozati architekt´ur´an m˝uk¨od˝o al-goritmus kedvez˝obb eredm´enyeket szolg´altat.

14Gyakran csak egy kisebb r´eszhalmazt.

15http://www.wipo.org/classifications/fulltext/new ipc/index.htm

12.2. t´abl´azat. A WIPO-alpha angol nyelv˝u szabadalmi dokumentumgy˝ujtem´enyen el´ert eredm´enyek

¨osszehasonl´ıt´asa a legalacsonyabb konfidenciaszinten (A m´odszerek nev´enek r¨ovid´ıt´ese: NB – Na¨ıve Bayes, SVM,k-NN – legk¨ozelebbi szomsz´edok m´odszere)

M´odszer/ M´ert´ek IPC szint

forr´as szekci´o alszekci´o f˝ocsoport

HITEC Top 66.41 54.63 38.38

[47] Top 55.00 41.00 –

NB, SVM SVM

HITEC Top3 89.41 79.48 59.64

[47] Top3 79.00 62.00 –

NB k-NN

HITEC Any 76.46 66.36 50.90

[47] Any 63.00 48.00 –

NB SVM

M´asik nagym´eret˝u dokumentumgy˝ujtem´eny a Reuters Corpus Volume 1 (RCV1)¹⁶, amely mint-egy 800 ezer h´ıranyagot tartalmaz, ´es h´arom k¨ul¨onb¨oz˝o taxon´omi´aba vannak az XML dokumentumok besorolva (t´ema szerint, ipari k´od szerint, ´es ter¨uleti k´od szerint). A kateg´ori´ak sz´ama azonban itt sok-kal kisebb mint a szabadalmi korpuszok eset´eben, mind¨ossze 103 t´ema, 364 ipari ´es 366 ter¨uleti k´od´u kateg´ori´at tartalmaz. B´ar gy˝ujtem´eny egyes r´eszeit m´ar t¨obben feldolgozt´ak, teljes k¨or˝u vizsg´alat k´esz´ıt´ese m´eg v´arat mag´ara.

In document 1.1. A tud´asfelt´ar´as folyamata (Pldal 173-176)