A DBSCAN algoritmus - S˝ ur˝ us´eg-alap´ u m´odszerek

7. Klaszterez´ es 159

7.8. S˝ ur˝ us´eg-alap´ u m´odszerek

7.8.1. A DBSCAN algoritmus

A DBSCAN a legels˝o s˝ur˝us´eg-alap´u elj´ar´as [51]. A s˝ur˝us´eg meghat´aroz´as´ahoz k´et pa-ram´etert haszn´al, egy sug´ar jelleg˝u m´ert´eket (eps) ´es egy elemsz´am k¨usz¨ob¨ot (minpts). A p elem szomsz´edai (Neps(p)) azok a elemek, amelyek p-t˝ol legfeljebb eps t´avols´agra vannak. A q elem a p-b˝ol s˝ur˝us´eg alapon k¨ozvetlen el´erhet˝o, ha q∈N_eps(p) ´es |N_eps(p)| ≥minpts. Naivan azt gondolhatn´ank, hogy egy klaszterben tal´alhat´o elemek s˝ur˝us´eg alapon k¨ozvetlen el´erhet˝ok egym´asb´ol. Ez nem ´ıgy van, hiszen a klaszter hat´ar´an l´ev˝o elemek eps t´avols´ag´an bel¨ul nincs mindig minpts darab elem.

A q elem s˝ur˝us´eg alapon el´erhet˝o p-b˝ol, ha l´eteznek p1=p, p2, . . . , pn=q elemek ´ugy, hogy pi+1 s˝ur˝us´eg alapon k¨ozvetlen el´erhet˝o pi-b˝ol. A p ´es q elemek s˝ur˝us´eg alapon ¨osszek¨ot¨ottek, ha l´etezik olyan o elem, amelyb˝ol p ´es q s˝ur˝us´eg alapon el´erhet˝o. A klaszter defin´ıci´oja ezek alapj´an :

7.5. defin´ıci´o. Az elemek egyC r´eszhalmaza klaszter, amennyiben

I. Ha p∈C ´es q s˝ur˝us´eg-alapon el´erhet˝op-b˝ol, akkor q∈C (maximalit´as).

II. Ha p, q∈C, akkor p ´es q s˝ur˝us´eg alapon ¨osszek¨ot¨ottek.

Egy elemet zajnak (noise) h´ıvunk, ha nem tartozik egyetlen klaszterbe sem.

Legyen a Cklaszter egypeleme olyan, hogy|N_eps(p)|≥minpts. Ekkor k¨onny˝u bel´atni, hogy C megegyezik azoknak a elemeknek a halmaz´aval, amelyek p-b˝ol s˝ur˝us´eg alapj´an el´erhet˝ok.

E tulajdons´agot haszn´alja az algoritmus. V´alasszunk egy tetsz˝oleges elemet (p) ´es hat´arozzuk meg a s˝ur˝us´eg alapj´an el´erhet˝o elemeket. Amennyiben |N_eps(p)|≥minptsfelt´etel teljes¨ul, akkor

meghat´aroztunk egy klasztert. A felt´etel nemteljes¨ul´es nem jelenti azt, hogyp zaj, lehet, hogy egy klaszter hat´ar´an helyezkedik el. |Neps(p)|< minpts eset´en egyszer˝uen v´alasszunk egy ´uj elemet. Ha m´ar nem tudunk ´uj elemet v´alasztani, akkor az algoritmus v´eget ´er. Azokat az elemeket tekintj¨uk zajnak (outliernek), amelyeket nem soroltunk semelyik klaszterbe.

A DBSCAN algoritmus el˝onye, hogy tetsz˝oleges alak´u klasztert k´epes felfedezni, ´es ehhez csak az elemek t´avols´ag´at haszn´alja. H´atr´anya, hogy rendk´ıv˝ul ´erz´ekeny a k´et param´eterre (eps, minpts). S˝ot amennyiben a klaszterekben tal´alhat´o elemek s˝ur˝us´ege elt´er˝o, akkor nem biztos, hogy lehet olyan param´etereket adni amivel a DBSCAN j´o eredm´enyt ad.

Weka 3.5.7 A DBScan algoritmust aweka.clusterers.DBScan oszt´aly implement´alja.

Id˝ osorok elemz´ ese

178

Sz¨ ovegb´ any´ aszat

Az ´ır´astud´o emberi civiliz´aci´ok kialakul´asa ´ota a tud´ast sz¨oveges dokumentumok form´aj´aban t´arolj´ak. Az ˝osi egyiptomiak is sz¨oveges dokumentumokat hagytak az ut´okorra, azonban hie-roglifikus ´ır´asuk megfejt´ese kor´antsem bizonyult k¨onny˝u feladatnak. A sz¨oveg meg´ert´es´et v´eg¨ul az seg´ıtette el˝o, hogy a feliratok t¨obb nyelven szerepeltek ugyanazon a k¨ov¨on, amelyek k¨oz¨ul az egyik g¨or¨og volt a m´asik kett˝o egyiptomi. Ez´altal a g¨or¨og nyelv szolg´alt kulcsk´ent a hie-roglif´ak megfejt´es´ehez, ez seg´ıtett a templomok ´es piramisok fal´an ´es a papirusz tekercseken tal´alt sz¨ovegekben l´ev˝o tud´as felt´ar´as´aban. Az ˝osi egyiptomi hieroglif´ak megfejt´es´eb˝ol k´et dol-got tanulhatunk : egyr´eszt, hogy a sz¨oveges dokumentumok az emberis´eg egyik ˝osi eml´ekezeti mechanizmusa, fontos megb´ızhat´oan t´arolni az adatokat ´es rendelkezni kell azzal a k´epess´eggel, hogy ha sz¨uks´eges visszanyerj¨uk ezeket a dokumentumokat. M´asr´eszt azt, hogy a dokumentu-mok szimpla el´er´ese nem elegend˝o, a tud´as felt´ar´asa speci´alis gyakorlatot ´es er˝oforr´ast ig´enyel.

Napjainkban, amikor a dokument´al´asi ´es adminisztr´aci´os folyamatok t´ulnyom´o r´esze elekt-ronikusan val´osul meg — ´es ez´altal rendk´ıv¨ul nagy mennyis´eg˝u elektronikus dokumentum ke-letkezik —, megfigyelhet˝o az a trend, hogy az adminisztrat´ıv munk´at v´egz˝ok munkaidej¨uk egyre n¨ovekv˝o h´anyad´at ford´ıtj´ak (elektronikus) dokumentumok kezel´es´ere. M´ıg ez csup´an 20%-ot tett ki 1997-ben, addigra 2003-ban m´ar 30–40%-ra becs¨ult´ek ezt az ar´anyt az [21, 83] munk´akban id´ezett Gartner Group tanulm´anyban. A Merill Lynch elemz˝oi szerint az ¨uzleti inform´aci´ok 85%-astruktur´alatlan adat form´aj´aban van jelen, mint pl. e-mailek, eml´ekeztet˝ok, ¨uzleti ´es kutat´asi besz´amol´ok, prezent´aci´ok, h´ırek, rekl´amanyagok, weboldalak, ¨ugyf´elszolg´alati tev´ekenys´eg jegy-zetei, stb. [21].

Az adatb´any´aszati m´odszerekkel az adatb´azisokban struktur´altan t´arolt adatokb´ol nyer-het˝ok ki ¨osszef¨ugg´esek. Ezek a m´odszerek nem m˝uk¨odnek a struktur´alatlan, ´altal´anos t´ıpus´u, sz¨oveges adatokra. Ez´ert astruktur´alatlan sz¨oveges adathalmazok hasonl´o c´el´u feldolgoz´asa m´as megold´asokat tesz sz¨uks´egess´e. Az ezzel foglalkoz´o szakter¨uletetsz¨ovegb´any´aszatnak nevezz¨uk.

Az adatb´any´aszat defin´ıci´oj´aval anal´og m´odon, a sz¨ovegb´any´aszatot dokumentumokon v´egzett olyan jelleg˝u feldolgoz´asi ´es elemz´esi tev´ekenys´egk´ent hat´arozhatjuk meg, melynek c´elja a dokumentumokban rejtetten megl´ev˝o ´uj inform´aciok felt´ar´asa, azonos´ıt´asa.

A sz¨ovegb´any´aszat alapvet˝o probl´em´aja nyilv´anval´o: a term´eszetes nyelvek emberek k¨ozti

— els˝osorban sz´obeli, majd k´es˝obb ´ır´asbeli — kommunik´aci´o miatt keletkeztek ´es fejl˝odtek ki,

´es nem sz´am´ıt´og´epes feldolgoz´asra. Az emberek k¨onnyed´en felismerik ´es alkalmazz´ak a nyelvi mint´akat, ´es ´altal´aban nem okoz gondot nekik olyan, a sz´am´ıt´og´epek sz´am´ara nehezen meg-oldhat´o feladatok, mint pl. k¨ul¨onb¨oz˝o helyes´ır´asi vari´aci´ok kezel´ese, kontextus felismer´es, vagy stilisztikai jelleg azonos´ıt´asa. Teh´at nyelvi tud´asunk lehet˝ov´e teszi a struktur´alatlan sz¨ovegek

179

9.1. ´abra. A sz¨ovegb´any´aszat ´altal´anos modellje

meg´ert´es´et, ugyanakkor nincs meg benn¨unk a sz´am´ıt´og´epeknek az a k´epess´ege, hogy a sz¨oveget nagy mennyis´egben, vagy nagy sebess´eggel dolgozzuk fel. A sz¨ovegb´any´aszat ´altal´anos c´elja teh´at az emberi nyelvi tud´as ¨otv¨oz´ese a sz´am´ıt´og´ep nagy sebess´eg´evel ´es pontoss´ag´aval [55].

A sz¨ovegb´any´aszat ´altal´anos modellje a 9.1 ´abr´an l´athat´o. A kiindul´o pont a dokumentumok halmaza, amin el˝osz¨or el˝ofeldolgoz´asi l´ep´eseket hajtunk v´egre (ld. 9.1. szakasz). Ezut´an hajtjuk v´egre a sz¨ovegb´any´aszati m´odszereket, majd az eredm´enyeket inform´aci´okezel˝o rendszerben t´aroljuk. A felhaszn´al´o ebb˝ol tudja az ig´enyeinek megfelel˝o tud´ast megszerezni.

Olyan probl´em´akkal, amelyekre a sz¨ovegb´any´aszat ny´ujthat megold´ast az ¨uzleti ´elet sze-repl˝oi ´es az ´atlagos felhaszn´al´ok egyar´ant gyakran tal´alkoznak. A nagy forgalmat lebonyol´ıt´o

ugyf´elszolg´alatokn´al p´eld´aul hatalmas mennyis´eg˝u ¨ugyf´ellel t¨ort´en˝o besz´elget´es zajlik naponta.

Ezek jellemz˝o tartalma, fontosabb t´em´ai, az ¨ugyf´elk¨or ig´enyeinek v´altoz´asa a szolg´altat´onak fontos inform´aci´ot jelent, amellyel hat´ekonyan reag´alhat a piac v´altoz´asainak kih´ıv´asaira.

Szint´en fontos inform´aci´ot hordozhat ¨uzleti d¨ont´eshoz´ok sz´am´ara a konkurens c´egekr˝ol, ill.

term´ekekr˝ol sz´ol´o ¨uzleti h´ırekr˝ol sz´ol´o automatikus ´ertes´ıt´es.

Az ´atlagos felhaszn´al´ok k¨oz¨ul is mindenki szembes¨ult m´ar a kulcssz´o-alap´u keres´es korl´ataival. Ha t¨obb´ertelm˝u keres˝okifejez´est haszn´alunk — a tipikus p´eld´ak : jagu´ar (´allat, aut´om´arka), saturn (bolyg´o, elektronikai c´eg, aut´ot´ıpus), tus (zuhany, ´ır´oszer, v´ıv´as, zene)¹

—, akkor a keres´es finom´ıt´as´ara van sz¨uks´eg a k´ıv´ant inform´aci´o el´er´es´ere. Ha a kontextus megadhat´o lenne, vagy a keresett oldalak tematiz´altan lenn´enek t´arolva, akkor az jelent˝osen megk¨onny´ıten´e a keres´est.

A keres˝ok gyakran adnak eredm´eny¨ul nagym´eret˝u, ak´ar t¨obb sz´az oldalas dokumentumokat, amely nyilv´an t¨obb t´em´at is t´argyal, ´es nem felt´etlen¨ul relev´ans a keres˝o sz´am´ara. Ahhoz, hogy a felhaszn´al´o megtal´alja a neki fontos inform´aci´ot bele kell m´elyednie a sz¨ovegbe, ami rendk´ıv¨ul id˝oig´enyes. Erre a probl´em´ara a sz¨ovegb´any´aszat az ¨osszegz´esk´esz´ıt˝o m´odszereket k´ın´alja megold´ask´ent, amelyek automatikusan ¨osszefoglalj´ak a dokumentum tartalm´at, aminek alapj´an a felhaszn´al´o m´ar k¨onnyebben t´aj´ekoz´odhat.

Az eddig ismertettet p´eld´ak csak ´ızel´ıt˝ot ny´ujtanak a sz¨ovegb´any´aszat m´ar l´etez˝o ´es j¨ov˝obeli felhaszn´al´asair´ol. Miel˝ott a k¨ovetkez˝o szakaszokban m´elyebbrehat´oan elkezd¨unk foglalkozni a t´em´aval, a 9.1 t´abl´azatban ¨osszefoglaljuk a sz¨ovegb´any´aszat alapvet˝o ism´erveit ¨osszehasonl´ıtva az adatb´any´aszattal.

9.1. Dokumentumok el˝ ofeldolgoz´ asa

Mint azt a 9.1 ´abr´an l´attuk a sz¨ovegb´any´aszati feladatok megold´as´anak els˝o l´ep´ese a sz¨ove-gek el˝ofeldolgoz´asa, aminek c´elja hogy megfelel˝o, egys´eges g´epi reprezent´aci´os alakra hozzuk

˝oket. Egy teljesen ´altal´anos sz¨ovegreprezent´aci´os modellnek rendk´ıv¨ul sz´elesk¨or˝u tud´ast kell mag´aban foglalnia, t¨obbek k¨oz¨ott p´eld´aul a term´eszetes nyelvtanokat is. Els˝o megk¨ozel´ıt´esben azonban csak statisztikai elemz´esek elv´egz´es´ere alkalmas modellt keres¨unk, amelyben a g´epi

1Erdekes, hogy a nemzetk¨´ ozi keres˝ok erre a keres˝osz´ora a nyomtat´oval kapcsolatos cikkeket is tal´alnak a t˝us sz´o ´ekezetn´elk¨uli reprezent´aci´oja miatt. A p´elda j´ol mutatja: a hat´ekony sz¨ovegb´any´aszati alkalmaz´asok — bizonyos r´eszben — nyelvf¨ugg˝ok.

9.1. t´abl´azat. Az adat- ´es sz¨ovegb´any´aszat ¨osszehasonl´ıt´asa ([83] felhaszn´al´as´aval)

tanul´as algoritmusai hat´ekony alkalmazhat´ok, mint pl. az adatb´any´aszat eset´eben a kor´abbi fejezetekben ismertetett m´odszerek.

Mivel a sz¨ovegeket a sz´am´ıt´og´ep nem tudja ´ertelmezni, ez´ert sz¨uks´eg van egy olyan elj´ar´asra, amely a sz¨ovegek tartalm´at t¨om¨oren reprezent´alja, ´es amely term´eszetesen b´armely dokumen-tumra alkalmazhat´o. A tov´abbiak sor´an — ha ett˝ol elt´er˝oen nem jelezz¨uk — a reprezent´aci´o egys´eg´enek a szavakat tekintj¨uk. Egyes m´odszerek t¨obb sz´ob´ol ´all´o kifejez´eseket is alkalmaznak, amely azonban jelent˝osen megn¨oveli a dokumentumok feldolgoz´as´anak (indexel´es´enek) idej´et, valamint a t´arig´enyt.

Az inform´aci´o-visszakeres´es (information retrieval IR) ter¨ulet´en a dokumentumokat leggyak-rabban avektort´er-modell seg´ıts´eg´evel vannak reprezent´alva [146]. A dokumentumokat szintak-tikai szab´alyok seg´ıts´eg´evel felbontjuk tokenekre (legegyszer˝ubb esetben a sz´ok¨oz elv´alaszt´o karakter alkalmaz´as´aval ; ekkor a tokenek szavak), ´es a tokeneketsz´ot¨ovez˝o seg´ıts´eg´evel kanoni-kus alakra hozzuk, azaz a sz´ot˝ovel helyettes´ıtj¨uk (ld. m´eg 9.7 szakasz). Az egyszer˝us´eg kedv´e´ert a tov´abbiakban a kanonikus alakotsz´onak nevezz¨uk. A dokumentumgy˝ujtem´enyben el˝ofordul´o k¨ul¨onb¨oz˝o szavak alkotj´ak a sz´ot´arat, vagy m´as n´even lexikont.

Minden tengely egy sz´ot reprezent´al, a dokumentumokat pedig vektork´ent ´abr´azoljuk a sza-vak ´altal kifesz´ıtett vektort´erben. A dokumentumok gy˝ujtem´eny´etsz´o–dokumentum m´atrixszal reprezent´aljuk (A ∈ R^M×N), amelynek valamely aij elem az i-edik sz´o el˝ofordul´asait

repre-zent´alja aj-edik dokumentumban, vagyis azi-edik tengelyhez tartoz´o sz´o relevanci´aj´at, s´uly´at adja meg a d dokumentumra vonatkoz´oan. A sorok sz´ama, M, megegyezik a sz´ot´ar m´eret´evel, N pedig a dokumentumok sz´ama. Mivel ´altal´aban egy dokumentumban az eg´esz sz´ot´arb´ol kev´es sz´o fordul el˝o, az A m´atrix ritka. M rendk´ıv¨ul nagy is lehet, ebb˝ol ad´od´oan a sz¨ove-gek kezel´es´enek egyik probl´em´aja a vektort´er magas dimenzi´oja. A dimenzi´osz´am cs¨okkent´es´ere vonatkoz´o m´odszereket a 9.1.1 pontban tekintj¨uk ´at.

Az aij ´ert´ek megv´alaszt´as´ara t¨obb lehet˝os´eg van. A legegyszer˝ubb abin´aris reprezent´aci´o: aij=

(1, hanij>0

0, han_ij= 0, (9.1)

aholnijazisz´o el˝ofordul´as´anak sz´ama aj dokumentumban. Ezt az ´ert´eket szint´en v´alaszthatjuk az adott sz´o fontoss´ag´anak megfeleltet´esek´ent :

aij=nij.

A dokumentumokat reprezent´al´o vektorokat norm´alhatjuk, hogy hosszuk 1 legyen pl. az k · k1, k·k2 vagy k·k∞ norma szerint. Hak·k1-t v´alasztjuk, akkor az el˝obbi ´ert´ek

aij=nij/n=fij (9.2)

lesz, ahol fij a sz´o dokumentumbeli gyakoris´ag´at jel¨oli (TF s´ulyoz´as).

A ??tm :eq :TF) s´ulyoz´asi s´ema azonos fontoss´ag´unak kezeli az ¨osszes sz´ot´arbeli sz´ot, ho-lott nyilv´an a t´emaspecifikus szavak, mint pl. ,,adatb´any´aszat” jellemz˝obbek egy dokumentum tartalm´ara mint a n´evel˝ok, hat´aroz´ok, n´evut´ok, stb., pl. ,,az”, ,,hogy”, ,,alatt”. Haisz´oni doku-mentumban fordul el˝o, akkorn_i/N a sz´o ritkas´ag´at, azaz fontoss´ag´at jellemzi a gy˝ujtem´enyben.

AzIDF(i) = 1+log(ni/N)inverz dokumentum frekvencia² ´ert´eke a vektort´er-modell egyes ten-gelyeit k¨ul¨onb¨oz˝o m´ert´ekben ny´ujtja meg. ´Igy kaphatjuk meg a legn´epszer˝ubb, ´un. TFIDF³ s´ulyoz´asi s´em´at :

aij=fij·IDF(i). (9.3)

Ezen k´ıv¨ul m´as, bonyolultabb s´ulyoz´asi s´em´ak is ismertek, amelyek a dokumentumok hossz´at, illetve az egyes szavak inform´aci´o elm´eleti alapon sz´am´ıtott entr´opi´aj´at is figyelembe veszik [1, 46, 145].

In document Magyar nyelv˝ u irodalom (Pldal 184-190)