• Nem Talált Eredményt

Hierarchikus oszt´alyoz´as

In document Magyar nyelv˝ u irodalom (Pldal 182-185)

8. Id˝ osorok elemz´ ese 162

9.2. Oszt´alyoz´as

9.2.2. Hierarchikus oszt´alyoz´as

Egyszer˝u sz¨ovegoszt´alyoz´as eset´en a dokumentumok sz´am´anak n¨oveked´ese, ´es a lefedett t´emak¨or¨ok sokf´eles´ege ´atl´athatatlan m´eret˝u kateg´oriarendszert eredm´enyezhet. Ezt a probl´em´at a kateg´ori´ak hierarchiz´al´as´aval, azaz taxon´omi´aba rendez´es´evel k¨onnyen ´at lehet hidalni. En-nek bevezet´ese az oszt´alystrukt´ura ´atl´athat´os´aga mellett algoritmikusan hat´ekonyabb elj´ar´asok alkalmaz´as´at is lehet˝ov´e teszi.

A teljes taxon´omi´an val´o oszt´alyoz´asi probl´em´at az algoritmusok kisebb oszt´alyoz´asi felada-tokra bontj´ak, ´ugy, hogy a taxon´omia minden bels˝o csom´opontj´ahoz rendelnek egyet. ´Altal´aban a moh´o algoritmust vagy annak valamilyen gyeng´ıtett v´altozat´at haszn´alj´ak. Ez az algoritmus egy adott csom´opontban megvizsg´alja, hogy az aktu´alis dokumentum annak melyik gyerek-kateg´ori´aj´aba tartozik legink´abb, majd e kiv´alasztott kateg´ori´ab´ol kiindulva rekurz´ıvan foly-tat´odik ´es termin´al, ha lev´elhez ´er.

A na´ıv Bayes-m´odszert alkalmazza hierarchikus oszt´alyoz´asra a [115] munka, ahol a kev´es tanul´oadattal rendelkez˝o lev´elkateg´ori´ak param´etereit (sz´oel˝ofordul´asok ar´anya) az ´un. shrin-kage (apad´as) statisztikai sim´ıt´o elj´ar´as seg´ıts´eg´evel hat´arozza meg a sz¨ul˝o kateg´ori´ak megfelel˝o

9http://www.daviddlewis.com/resources/testcollections/reuters21578/

adatait felhaszn´alva. A m´odszer seg´ıts´eg´evel a moh´o algoritmus egyik jellegzetes hib´aja — ti.

hogy a taxon´omia fels˝o szintj´en elk¨ovetett oszt´alyoz´asi hib´at m´ar nem lehet korrig´alni — nagy r´eszben kik¨usz¨ob¨olhet˝o.

A neur´alis h´al´ozatok architekt´ur´aj´anak ´es a taxon´omi´aknak struktur´alis hasonl´os´aga k´ezenfekv˝ov´e teszi a neur´alis h´al´ozatok alkalmaz´as´at hierarchikus oszt´alyoz´as eset´en. A HI-TEC10[169] oszt´alyoz´o egy ismeretlenddokumentum kategoriz´al´as´an´al a taxon´omia gy¨oker´eb˝ol indulva szintenk´ent hat´arozza meg a legval´osz´ın˝ubb kateg´ori´at, azaz minden szintet a neur´alis h´al´o egy r´etege reprezent´al. A v´egeredm´enyt a lev´elkateg´ori´ak szintj´en kapjuk. Az elj´ar´as k´et param´eter alkalmaz´as´aval b˝ov´ıti az egy szinten kiv´alasztott kateg´ori´ak k¨or´et, hogy a moh´o jelleg˝u k¨ovetkeztet´es el˝oz˝o bekezd´esben jelzett hib´aj´at kik¨usz¨ob¨olje. Az egyikkel a kiv´alasztott kateg´ori´ak sz´ama adhat´o meg, a m´asikkal pedig az, hogy a kiv´alasztott kateg´ori´akn´al legjobbt´ol val´o mekkora elt´er´es engedhet˝o meg.

Hat´ekonys´agm´er´es

Taxon´omi´aba val´o oszt´alyoz´askor t¨obb lehet˝os´eg van a hat´ekonys´ag m´er´es´ere a taxon´omia kialak´ıt´as´at´ol f¨ugg˝oen. Amennyiben a dokumentumok csak lev´elkateg´ori´akba vannak besorol-va, akkor az egyszer˝u oszt´alyoz´asn´al ismertetett m´ert´ekeket lehet alkalmazni a lev´elkateg´ori´ak

¨osszess´eg´ere (ld. 9.2.1. szakasz). Ez azonban n´emileg f´elrevezet˝o eredm´enyt is adhat, hiszen

´altal´aban ,,kev´esb´e rossz” az az oszt´alyoz´asi k¨ovetkeztet´es, amely egy lev´elkateg´oria helyett an-nak testv´er´et tal´alja meg (teh´at a sz¨uleik k¨oz¨osek), mint az amelyik a kateg´oriarendszer teljesen m´as ´ag´ahoz rendeli a dokumentumot. Ha egy dokumentumot nemcsak a lev´elkateg´ori´ahoz tar-toz´onak tekint¨unk, hanem annak ¨osszes sz¨ul˝oj´ehez is hozz´arendelj¨uk11, akkor pontosabb k´epet kaphatunk az oszt´alyoz´as ´ert´ekel´esekor, felt´eve ha a teljes — teh´at nem csak lev´elszint˝u ka-teg´ori´akra — taxon´omi´ara sz´amoljuk a pontoss´ag, felid´ez´es, F-m´ert´ek ´ert´ekeit. K¨ul¨on¨osen indo-kolt ez akkor, ha vannak olyan dokumentumok, amelyek a taxon´omia k¨ozbens˝o csom´opontjaihoz vannak rendelve.

Valamelyest leegyszer˝us´ıtve az algoritmusok ´altal´aban a hierarchikus oszt´alyoz´ast a ta-xon´omia csom´opontjaira dekompon´alt egyszer˝u oszt´alyoz´asi feladatok sorozatak´ent oldj´ak meg.

Ez´ert a taxon´omi´aba egyre lejjebb jutva, az oszt´alyoz´asi hib´ak ¨osszead´odnak, ´es egyre kev´esb´e lesz pontos az eredm´eny. Ez a tendencia j´ol megfigyelhet˝o, ha a szok´asos m´ert´ekeket (pontoss´ag, felid´ez´es, F-m´ert´ek) szintenk´ent sz´am´ıtjuk ki.

Hierarchikus oszt´alyoz´as eset´en gyakran tal´alkozunk a t¨obbszint˝u oszt´alyoz´as probl´em´aj´aval, amikor teh´at egy dokumentumnak vannak els˝orend˝u, m´asodrend˝u stb. kateg´ori´ai. Itt a k´etszint˝u oszt´alyoz´as eset´evel foglalkozunk12. A szakirodalom az egyszer˝u oszt´alyoz´ast´ol elt´er˝o m´er˝osz´amokat javasol a hat´ekonys´ag m´er´es´ere erre az esetre, amelyeket c´elzottan a k´es˝obbiekben ismertet´esre ker¨ul˝o szabadalmi teszt-dokumentumgy˝ujtem´enyhez alak´ıtottak ki (ld. 9.3. ´abra).

I. Top : Az oszt´alyoz´o ´altal legnagyobb konfidencia´ert´ekkel meghat´arozott kateg´ori´at ha-sonl´ıtja a dokumentum els˝odleges kateg´ori´aj´ahoz.

II. Top 3 :Az oszt´alyoz´o ´altal javasolt h´arom legnagyobb konfidencia´ert´ekkel b´ır´o kateg´ori´at

10http://categorizer.tmit.bme.hu

11A kateg´ori´ak sorozat´at ekkorkateg´oria¨osv´enynek nevezz¨uk.

12Term´eszetesen a taxon´omia szintjeinek sz´am´ara nem tesz¨unk megk¨ot´est.

hasonl´ıtja a dokumentum els˝odleges kateg´ori´aj´ahoz. Ha a h´arom k¨oz¨ul valamelyik tal´al, akkor az oszt´alyoz´as sikeresnek sz´am´ıt.

III. Any : Az oszt´alyoz´o ´altal legnagyobb konfidencia´ert´ekkel meghat´arozott kateg´ori´at ha-sonl´ıtja a dokumentumhoz tartoz´o ¨osszes (els˝odleges, m´asodlagos) kateg´ori´akkal. Ha va-lamelyikkel megegyezik, akkor az oszt´alyoz´as sikeresnek sz´am´ıt.

9.3. ´abra. Magyar´azat a t¨obbszint˝u oszt´alyoz´asn´al alkalmazott m´ert´ekekhez (mc – f˝o kateg´oria ; ic – egy´eb kateg´oria ; A – oszt´alyoz´o eredm´enye ; B – eredeti ´ert´ek) [51]

Ki´ert´ekel´es ´es p´eld´ak

Mivel a hierarchikus oszt´alyoz´assal csak a 90-es ´evek v´eg´et˝ol kezdtek el foglalkozni, ez´ert sok´aig nem volt olyan dokumentumgy˝ujtem´eny, amelyen a k¨ul¨onb¨oz˝o m´odszereket ¨ossze lehetett volna hasonl´ıtani. A kutat´ok ez´ert a k¨ul¨onb¨oz˝o korpuszokon tesztelt´ek algoritmusaikat, pl.

Reuters-gy˝ujtem´eny kateg´ori´ait13 rendezt´ek k¨ul¨onb¨oz˝o taxon´omi´akba [31, 39, 98, 178] ´es ezen v´egezt´ek m´er´eseiket. Ezek az eredm´enyek azonban csak hozz´avet˝olegesen hasonl´ıthat´oak ¨ossze, hiszen a 9.2.2. pontban ismertetett ir´anyelvek nem teljes¨ultek, s˝ot m´eg a kateg´ori´ak halmaza (taxon´omia) is t¨obbnyire elt´ert.

A szabadalmi hivatalokban t¨obb feladathoz is nagy seg´ıts´eget jelenthet a hierarchikus oszt´alyoz´ok alkalmaz´asa. A szabadalmak feldolgoz´asa sor´an a beadv´anyokat emberi munk´aval elemzik ´es tov´abb´ıtj´ak a megfelel˝o szakcsoporthoz, akik a szabadalom szakmai elb´ır´al´as´at

´es besorol´as´at elv´egzik. A szakcsoportok meghat´aroz´asa automatikuss´a tehet˝o, vagy fel¨ugyelt f´elautomatikus m´odon is v´egezhet˝o, mivel a oszt´alyoz´o elj´ar´asok pontoss´aga itt elegend˝o. Az oszt´alyoz´o rendszer tov´abbi seg´ıts´eget adhat a szak´ert˝oknek is, amennyiben javaslatokat ad a beadv´anyok kateg´ori´aj´anak a meghat´aroz´as´ahoz.

Term´eszetesen m´as int´ezm´eny is hat´ekonyan alkalmazhatja ezeket a m´odszereket, hiszen a bej¨ov˝o dokumentumok rendszerez´ese ´altal´anos feladat ak´ar ´allami, ¨onkorm´anyzati, vagy ipa-ri int´ezm´enyekben is. Mindazon´altal a szabadalmi hivatalok eset´eben rendelkez´esre ´allnak a sz¨uks´eges el˝ofelt´etelek : a j´ol defini´alt, r¨ogz´ıtett taxon´omia ´es a nagy sz´am´u tanul´oadat.

Ennek az ´erdekelts´egnek is k¨osz¨onhet˝o, hogy az els˝o, kimondottan hierarchikus oszt´alyoz´as algoritmusok valid´al´as´ara alkalmasa teszt-dokumentumgy˝ujtem´enyt a WIPO (World Intellec-tual Property Organization – Nemzetk¨ozi Szellemi Tulajdonok Szervezet) bocs´atotta k¨ozz´e 2002 v´eg´en [51], amely angol nyelv˝u szabadalmi sz¨ovegeket tartalmazott, majd nem sokkal k´es˝obb n´emet nyelv˝u gy˝ujtem´enyt is k¨ozz´etettek [50]. Az angol gy˝ujtem´eny mintegy 75000 XML form´at´u dokumentumb´ol ´all, amely ¨osszesen 3 GB adat, a n´emet gy˝ujtem´eny ¨osszesen 110 ezer XML dokumentumot tartalmaz. A gy˝ujtem´enyek fel vannak osztva tanul´o- ´es tesztada-tokra. A dokumentumok az IPC (Internatial Patent Classification – Nemzetk¨ozi Szabadalmi Oszt´alyoz´as) kateg´oriarendszer´enek14 fels˝o n´egy szintj´ebe (oszt´aly, szekci´o, alszekci´o, f˝ocsoport) vannak besorolva, amely kb. 5000 kateg´ori´at jelent ¨osszesen. Minden dokumentumnak pontosan egy els˝orend˝u (f˝o) kateg´ori´aja ´es tetsz˝oleges sz´am´u, ´atlagosan 4–5 m´asodrend˝u kateg´ori´aja van.

13Gyakran csak egy kisebb r´eszhalmazt.

14http://www.wipo.org/classifications/fulltext/new_ipc/index.htm

Ezen a gy˝ujtem´enyen v´egzett ´atfog´o ¨osszehasonl´ıt´ast a 9.3. ´abr´an l´athat´o m´ert´ekekkel egy nemzetk¨ozi kutat´ocsoport [52]. Munk´ajukban a na´ıv Bayes-elj´ar´as, a legk¨ozelebbi szomsz´edok m´odszer, az SVM, ´es a Winnow egy-egy hierarchikus oszt´alyoz´asra specializ´alt verzi´oj´at ha-sonl´ıtott´ak ¨ossze k¨ul¨onb¨oz˝o tanul´asi halmazok mellett. Az m´odszerek hat´ekonys´ag´at szekci´o ´es alszekci´o szintj´en vizsg´alt´ak, az eredm´enyeket a 9.2. tartalmazza. Ugyanezen a gy˝ujtem´enyen a neur´alis h´al´ozat alap´u HITEC-et is tesztelt´ek, ´es l´enyegesen jobb eredm´enyeket kaptak : a ta-xon´omi´aban egy szinttel lejjebb volt k´epes a HITEC a t¨obbi m´odszer ´altal egy szinttel feljebb el´ert eredm´enyre [170]. Ez alapj´an meg´allap´ıthat´o, hogy a taxon´omia topol´ogi´aj´at kihaszn´al´o neur´alis h´al´ozati architekt´ur´an m˝uk¨od˝o algoritmus kedvez˝obb eredm´enyeket szolg´altat.

9.2. t´abl´azat. A WIPO-alpha angol nyelv˝u szabadalmi dokumentumgy˝ujtem´enyen el´ert eredm´enyek ¨osszehasonl´ıt´asa a legalacsonyabb konfidenciaszinten (A m´odszerek nev´enek

r¨ovid´ıt´ese : NB – Na¨ıve Bayes, SVM, k-NN – legk¨ozelebbi szomsz´edok m´odszere)

M´odszer/ M´ert´ek IPC szint

forr´as szekci´o alszekci´o f˝ocsoport

HITEC Top 66.41 54.63 38.38

[52] Top 55.00 41.00 –

NB, SVM SVM

HITEC Top3 89.41 79.48 59.64

[52] Top3 79.00 62.00 –

NB k-NN

HITEC Any 76.46 66.36 50.90

[52] Any 63.00 48.00 –

NB SVM

M´asik nagym´eret˝u dokumentumgy˝ujtem´eny a Reuters Corpus Volume 1 (RCV1)15, amely mintegy 800 ezer h´ıranyagot tartalmaz, ´es h´arom k¨ul¨onb¨oz˝o taxon´omi´aba vannak az XML dokumentumok besorolva (t´ema szerint, ipari k´od szerint, ´es ter¨uleti k´od szerint). A kateg´ori´ak sz´ama azonban itt sokkal kisebb mint a szabadalmi korpuszok eset´eben, mind¨ossze 103 t´ema, 364 ipari ´es 366 ter¨uleti k´od´u kateg´ori´at tartalmaz. B´ar gy˝ujtem´eny egyes r´eszeit m´ar t¨obben feldolgozt´ak, teljes k¨or˝u vizsg´alat k´esz´ıt´ese m´eg v´arat mag´ara.

In document Magyar nyelv˝ u irodalom (Pldal 182-185)