Oszt´alyoz´o m´odszerek ¨osszehasonl´ıt´asa

6. Oszt´ alyoz´ as ´ es regresszi´ o 113

6.11. Oszt´alyoz´ok ¨osszehasonl´ıt´asa

6.11.3. Oszt´alyoz´o m´odszerek ¨osszehasonl´ıt´asa

Az el˝obbi r´eszekben k´et oszt´alyoz´ot hasonl´ıtottunk ¨ossze. Oszt´alyoz´ot egy oszt´alyoz´o m´odszer alkalmaz´as´aval kapunk egy tan´ıt´o halmazon. P´eld´aul az ID3 algoritmus egy oszt´alyoz´o m´odszer, m´ıg egy d¨ont´esi fa, amelyet az ID3 alkalmaz´as´aval kapunk egy adott tan´ıt´ohalmazon egy oszt´alyoz´o.

Tudom´anyos munk´akban a kutat´ok ´uj m´odszereket fejlesztenek ki ´es a m´odszerek hat´ekonys´ag´at nyilv´anosan el´erhet˝o adatb´azisokon v´egzett eredm´enyekkel k´ıv´anj´ak bemutatni.

Ehhez ´altal´aban keresztvalid´aci´ot haszn´alnak. Vesznek n darab adatb´azist, minden adatb´azist rdiszjunkt r´eszre osztanak v´eletlenszer˝uen ´es a v´eletlen feloszt´astk-szor megism´etlik. ¨Osszesen nrk tan´ıt´ast majd tesztel´est v´egeznek ´es az ezekb˝ol sz´armaz´o pontoss´agot haszn´alj´ak a student t-pr´oba sor´an.

Weka 3.6.0 _{A wek´}aban az oszt´alyoz´ok ¨osszehasonl´ıt´asa sor´an a fent v´azolt m´odszert haszn´alhatjuk. Ehhez az Experimenter ablakot kell kiv´alasztani. ADatasetspanelen megadhatjuk az adatb´azisokat, az Algorithmspanelen pedig az ¨oszzehasonl´ıtand´o oszt´alyoz´o m´odszereket.

Ha a keresztvalid´aci´o helyett egyszer˝u kett´eoszt´ast (tan´ıt´o- ´es tesz-tel˝ohalmazra) szeretn´enk alkalmazni, akkor az Experiment type pane-len v´alasszuk a Train/Test Percentage Split lehet˝os´eget.

A m´odszerek alkalmaz´as´at aRunf¨ulStartgombj´anak lenyom´as´aval

´erhetj¨uk el. Az eredm´enyt elmenthetj¨uk arff form´atumba, ´ıgy az be-menetk´ent szolg´alhat tetsz˝oleges adatb´any´aszati m´odszernek. Ha csv

form´atumba ment¨unk, akkor az eredm´enyt k´enyelmesen b¨ong´eszhetj¨uk excel vagy openoffice t´abl´azatkezel˝okkel.

Az Analyse f¨ul¨on v´egezhetj¨uk el a Student pr´ob´at. A student pr´ob´ahoz nem csak az oszt´alyoz´o pontoss´ag´at haszn´alhatjuk (ez az alap´ertelmezett ´ert´ek), hanem b´armilyen kisz´am´ıtott ´ert´eket (pl. kap-pa statisztika, F-m´ert´ek, ROC g¨orbe alatti ter¨ulet, stb.) haszn´alhatunk.

A Test output panelen az Student teszt eredm´eny´et l´athatjuk. Meg van adva minden oszt´alyoz´ohoz az ¨osszes´ıtett pontoss´ag. Amennyiben az

´ert´ek mellett egy * szerepel, akkor a Student pr´oba alapj´an az oszt´alyoz´o m´odszer szignifik´ansan rosszabb, mint a legels˝o oszt´alyoz´o. A sz´am mel-letti v bet˝u eset´en pedig a Student pr´oba szignifik´ansan jobb eredm´enyt adott.

Klaszterez´ es

Klaszterez´esen elemek csoportos´ıt´as´at ´ertj¨uk. ´Ugy szeretn´enk a csoportos´ıt´ast elv´egezni, hogy a hasonl´o elemek ugyanazon, m´ıg az egym´ast´ol elt´er˝o elemek k¨ul¨on csoportba ker¨uljenek.

Sajnos a

”j´o” csoportok kialak´ıt´asa nem egy´ertelm˝u feladat, hiszen az emberek gyakran m´as-m´as szempontokat vesznek figyelembe a csoportos´ıt´asn´al. Ugyanazt azt adathalmazt, alkalmaz´ast´ol

´es szok´asokt´ol f¨ugg˝oen, elt´er˝oen klaszterezn´ek az emberek. P´eld´aul az 52 darab francia k´arty´at sokan 4 csoportra osztan´ak (sz´ın szerint), sokan 13-ra (figura szerint). A Black Jack j´at´ekosok 10 csoportot hozn´anak l´etre (ott a 10-es, bubi, d´ama, kir´aly k¨oz¨ott nincs k¨ul¨onbs´eg), m´ıg a Pikk D´ama j´at´ekot kedvel˝ok h´armat (pikk d´ama, a k˝or¨ok ´es a t¨obbi lap). Klaszterez´eskor teh´at az adathalmaz mellett meg kell adnunk, hogy mik´ent defini´aljuk az elemek hasonl´os´ag´at, tov´abb´a, hogy mi alapj´an csoportos´ıtsunk (¨osszef¨ugg˝o alakzatokat keress¨unk, vagy a n´egyzetes hib´at minimaliz´aljuk stb.).

A j´os´ag egzakt defin´ıci´oj´anak hi´anya mellett nagy probl´em´at jelent az ´ori´asi keres´esi t´er.

Ha n pontot akarunk k csoportba sorolni, akkor a lehets´eges csoportos´ıt´asok sz´am´at a Stirling sz´amok adj´ak meg :

Sn^(k)= 1 k!

i=0

(−1)^k⁻ⁱ k

iⁿ.

M´eg egy eg´eszen pici adathalmaz mellett is megd¨obbent˝oen sokf´elek´eppen csoportos´ıthatunk.

P´eld´aul 25 elemet 5 csoportbaS25⁽⁵⁾=2,436,684,974,110,751 k¨ul¨onb¨oz˝o m´odon part´ıci´on´alhatunk.

R´aad´asul, ha a csoportok sz´am´at sem tudjuk, akkor a keres´esi t´er m´eg nagyobb (P25

k=1S25^(k)>

>4·10¹⁸).

Sz¨uks´eg van azonban az elemek automatikus csoportos´ıt´as´ara, ´ıgy a probl´em´akon t´ul kell l´epni. Objekt´ıv defin´ıci´ot kell adnunk az elemek hasonl´os´ag´anak m´ert´ek´ere ´es a klaszterez´es min˝os´eg´ere. Amennyiben megfelel˝o matematikai modellbe ´agyaztuk a feladatot, lehet˝os´eg ny´ılik olyan algoritmusok megkeres´es´ere, amelyek j´ol ´es gyorsan oldj´ak meg a feladatot. Ezekr˝ol az algoritmusokr´ol ´es a hasonl´os´ag meg´allap´ıt´as´anak m´odj´ar´ol sz´ol ez a fejezet.

Klaszterez´es sor´an csoportokba, oszt´alyokba soroljuk az elemeket, teh´at oszt´alyoz´ast v´egz¨unk. Az eredeti oszt´alyoz´asi feladatt´ol (l´asd el˝oz˝o fejezet) az k¨ul¨onb¨ozteti meg a klasz-terez´est, hogy nincs megadva, hogy melyik elem melyik oszt´alyba tartozik (teh´at nincs egy tan´ıt´o, aki helyes p´eld´akkal seg´ıti a tanul´asunkat), ezt nek¨unk kell meghat´aroznunk. Ez´ert h´ıvj´ak a klaszterez´est fel¨ugyelet n´elk¨uli tanul´asnak (unsupervised learning) is.

A klaszterez´es az adatb´any´aszat legr´egebbi ´es leggyakrabban alkalmazott r´esze. Sz´amos helyzetben alkalmazz´ak, ´ıgy csoportos´ıtanak weboldalakat, g´eneket, betegs´egeket stb. Az egyik

164

legdinamikusabban fejl˝od˝o ter¨ulet azonban a szem´elyre szabott szolg´altat´asok´e, ahol az ¨ ugyfe-leket, ill. v´as´arl´okat kategoriz´alj´ak, ´es az egyes kateg´ori´akat elt´er˝oen kezelik. A klaszterez´esre az´ert van sz¨uks´eg, mert az ¨ugyfelek sz´amoss´aga miatt a k´ezi kategoriz´al´as t´ul nagy k¨olts´eget jelentene.

Gyakran nem az a fontos, hogy az egyes elemeket melyik csoportba soroljuk, hanem az, hogy mi jellemz˝o a k¨ul¨onb¨oz˝o csoportokra. P´eld´aul egy banki strat´egia kialak´ıt´as´an´al nem

´erdekel benn¨unket, hogy Kis Pista melyik csoportba tartozik, hanem csak az, hogy milyen

ugyf´elcsoportokat c´elszer˝u kialak´ıtani ´es ezekre a csoportokra mi jellemz˝o. A klaszterez´es seg´ıts´eg´evel egy vesztes´eges t¨om¨or´ıt´est v´egezt¨unk. A teljes ¨ugyfeleket tartalmaz´o adatb´azist egy kisebb, ´atl´athat´obb, em´eszthet˝obb ¨ugyf´elcsoport adatb´aziss´a alak´ıtottuk.

Weka 3.5.7 A klaszterez˝o m´odszereket az Experimenter alkal-maz´as Cluster f¨ul´en kereszt¨ul ´erhetj¨uk el.

A fejezet tov´abbi r´esz´eben el˝osz¨or egy megh¨okkent˝o kutat´asi eredm´enyr˝ol sz´amolunk be, majd a hasonl´os´ag meghat´aroz´as´ar´ol besz´el¨unk v´eg¨ul r´at´er¨unk a legismertebb klaszterez˝o algo-ritmusokra.

7.1. Egy lehetetlens´ eg-elm´ elet

A klaszterez´es az egyik legnehezebben ´atl´athat´o adatb´any´aszati ter¨ulet. Napr´ol napra ´ujabb

´es ´ujabb cikkek jelennek meg k¨ul¨onb¨oz˝o

”csodaalgoritmusokr´ol”, amelyek szupergyorsan ´es helyesen csoportos´ıtj´ak az elemeket. Elm´eleti elemz´esekr˝ol ´altal´aban kev´es sz´o esik – azok is gyakran elnagyoltak, s˝ot hib´asak –, viszont az algoritmust igazol´o teszteredm´enyekb˝ol nincs hi´any. Mintha minden algoritmusnak illetve szerz˝onek l´etezne a maga adatb´azisa, amivel az elj´ar´as remek eredm´enyeket hoz.

Ebben a k´aoszban kincset ´ernek a helyes ir´anyvonalak megvil´ag´ıt´asai ´es a megalapozott elm´eleti eredm´enyek. Egy ilyen gy¨ongyszem Jon Kleinberg munk´aja, amit az

”An Impossibi-lity Theorem for Clustering (A Klaszterez´es Lehetetlens´eg-elm´elete)” c´ım˝u cikk´eben publik´alt 2002-ben [74]. A c´ım m´ar sejteti az elszomor´ıt´o eredm´enyt, miszerint nem l´etezik j´o, t´avols´ag alap´u¹ klaszterez˝o elj´ar´as! Ezt a meglep˝o ´all´ıt´ast ´ugy bizony´ıtja, hogy h´arom tulajdons´agot mond ki, amellyel egy klaszterez˝o elj´ar´asnak rendelkeznie kell, majd bel´atja, hogy nem l´etezhet klaszterez˝o elj´ar´as, amelyre ez igaz. A tulajdons´agok az al´abbiak:

Sk´ala-invariancia : Ha minden elemp´ar t´avols´aga helyett annak azα-szoros´at vessz¨uk alapul (ahol α >0), akkor a klaszterez˝o elj´ar´as eredm´enye ne v´altozzon!

Gazdags´ag (richness) : Tetsz˝oleges el˝ore megadott csoportos´ıt´ashoz tudjunk megadni t´avols´agokat ´ugy, hogy a klaszterez˝o elj´ar´as az adott m´odon csoportos´ıtson.

Konzisztencia : Tegy¨uk fel, hogy a klaszterez˝o elj´ar´as valahogy csoportos´ıtja az elemeket. Ha ezut´an tetsz˝oleges, azonos csoportban l´ev˝o elemp´arok k¨oz¨ott a t´avols´agot cs¨okkentem,

1A k¨ul¨onb¨oz˝os´eg meg´allap´ıt´as´ahoz haszn´alt t´avols´agf¨uggv´enynek szemi-metrik´anak kell lennie, teh´at a h´aromsz¨og egyenl˝otlens´egnek nem kell teljes¨ulnie

illetve k¨ul¨on csoportban l´ev˝o elemp´arok t´avols´ag´at n¨ovelem, akkor az ´ujonnan kapott t´avols´agok alapj´an m˝uk¨od˝o elj´ar´as az eredetivel megegyez˝o csoportos´ıt´ast adja.

A fenti tulajdons´agok teljesen term´eszetesek, azt gondoln´ank, hogy minden algoritmus ilyen.

Ez´ert nem t´ul b´ıztat´o a k¨ovetkez˝o t´etel:

7.1. t´etel. Amennyiben az elemek sz´ama nagyobb 1-n´el, akkor nem l´etezik olyan klaszterez˝o elj´ar´as, ami rendelkezik a Sk´ala-invariancia, a Gazdags´ag ´es a Konzisztencia tulajdons´agokkal.

Kleinberg azt is bebizony´ıtja, hogy b´armely k´et tulajdons´aghoz l´etezik klaszterez˝o elj´ar´as, amely rendelkezik a v´alasztott tulajdons´agokkal. P´eld´aul a single-linkage elj´ar´as (l´asd 7.7.1.

r´esz) sk´ala-invari´ans ´es konzisztens. Ezen k´ıv¨ul az is igaz, hogy a part´ıci´on´al´o algoritmusok (pl.: k-means, k-medoid), ahol a c´el a k¨oz´eppontokt´ol vett t´avols´ag f¨uggv´eny´enek (p´eld´aul n´egyzetes hiba ¨osszege) minimaliz´al´asa, nem konzisztensek.

Vitatkozhatunk azon, hogy a konzisztencia jogos elv´ar´as-e egy klaszterez˝o algoritmussal szemben. N´ezz¨uk a k¨ovetkez˝o ´abr´at. Bal oldalon l´athatjuk az eredetileg megadott pontokat, jobb oldalon pedig az ´atmozgat´as sor´an kapottakat.

s s s

s s

s s s

ssss s ss s

Legt¨obben a bal oldali pontokat egy csoportba venn´ek (nagy n´egyzetet reprezent´al´o pontok), a jobb oldalon l´athat´okat viszont k´et k¨ul¨on csoportba soroln´ak (k´et kis n´egyzethez tartoz´o pon-tok). A klaszteren bel¨uli t´avols´agokat teh´at cs¨okkentett¨uk, a klaszterez´es m´egis megv´altozott, azaz klaszterez´esi elj´ar´asunk nem rendelkezik a konzisztencia tulajdons´aggal.

Sajnos Kleinberg erre az ´eszrev´etelre is tud elszomor´ıt´oan reag´alni. A konzisztencia fogalm´at laz´ıthatjuk. Amennyiben a klasztereken bel¨uli t´avols´agokat cs¨okkentj¨uk, a klaszterek k¨oz¨otti t´avols´agokat n¨ovelj¨uk, ´es ez´altal bizonyos klaszterek kisebb klaszterekk´e bomlanak, akkor a klaszterez˝o elj´ar´asfinom´ıt´as–konzisztens. Bel´athat´o, hogy nem l´etezik olyan klaszterez˝o elj´ar´as, ami sk´ala-invari´ans, gazdag ´es finom´ıt´as–konzisztens.

Ha viszont a gazdags´agb´ol is enged¨unk egy kicsit, nevezetesen, hogy a klaszterez˝o algori-mus sose tudjon minden pontot k¨ul¨on klaszterbe sorolni – de tetsz˝oleges m´as m´odon tudjon particion´alni –, akkor l´etezik klaszterez˝o elj´ar´as, amely kiel´eg´ıti a h´arom tulajdons´agot.

Miel˝ott tov´abbl´epn´enk gondolkodjunk el azon, hogy jogos-e a hasonl´os´agot ´es k¨ul¨onb¨oz˝os´eget puszt´an egy t´avols´ag alapj´an defini´alni. A klaszterez´es eredeti c´elja az, hogy a hasonl´o elemek egy csoportba, m´ıg a k¨ul¨onb¨oz˝o elemek elt´er˝o csoportba ker¨uljenek. Ebb˝ol k¨ovetkezik, hogy egy tetsz˝oleges elem k¨ul¨onbs´ege (t´avols´aga) a saj´at csoportbeli elemeit˝ol kisebb lesz, mint a k¨ul¨onbs´ege m´as csoportban tal´alhat´o elemekt˝ol. Biztos, hogy j´o ez? Biztos, hogy az ember is ´ıgy csoportos´ıt, teh´at ez a term´eszetes klaszterez´es? Sajnos nem lehet a k´erd´esre egy´ertelm˝u v´alaszt adni. Van amikor az ember ´ıgy csoportos´ıt, van, amikor m´ashogy. Tekints¨uk a k¨ovetkez˝o ´abr´an elhelyezked˝o pontokat.

. .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . .. . . . .. . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . .. . . . .. . . .

Val´osz´ın˝uleg kiv´etel n´elk¨ul minden ember k´et csoportot hozna l´etre, az als´o szakaszhoz tartoz´o pontok´et ´es a fels˝o szakaszhoz tartoz´o pontok´et. M´egis, ha megn´ezz¨uk, akkor az als´o szakasz bal oldali pontja sokkal k¨ozelebb van a fels˝o szakasz bal oldali pontjaihoz, mint azokhoz a pontokhoz, amelyek az als´o szakasz jobb oldal´an helyezkednek el. M´egis ragaszkodunk ahhoz, hogy a bal- ´es jobboldali pontok egy csoportba ker¨uljenek. ´Ugy ´erezz¨uk, egym´ashoz tartoznak, mert mindannyian az als´o szakasz elemei.

K¨ovetkez´esk´eppen a klaszterez´es c´elja – az eredetivel szemben – gyakran az, hogy ´ugy csoportos´ıtsunk, hogy egy csoportba ker¨uljenek az elemek akkor, ha ugyanahhoz az absz-trakt objektumhoz tartoznak, ´es k¨ul¨onb¨oz˝obe, ha m´as absztrakt objektum r´eszei. A klaszte-rez´es neh´ezs´ege pont abban rejlik, hogy automatikusan kell felfedezni objektumokat az elemek alapj´an, ami r´aad´asul nem egy´ertelm˝u feladat (p´eld´aul Rubin v´az´aj´anak esete).

Ha a klaszterez´es sor´an az absztrakt objektumokat ¨osszef¨ugg˝o alakzatok form´aj´aban ke-ress¨uk (pl. vonal, g¨omb, am˝oba, p´alcikaember stb.) akkor van es´ely j´ol megoldani a feladatot.

Osszess´eg´eben teh´at t¨ok´eletes klaszterez´es nem l´etezik, ugyanakkor a lehetetlens´eg elm´elet nem¨ z´arja ki az ¨osszef¨ugg˝o alakzatokat felfedez˝o elj´ar´as l´etez´es´et.

7.2. Hasonl´ os´ ag m´ ert´ eke, adat´ abr´ azol´ as

Adott n elem (vagy m´as n´even objektum, egyed, megfigyel´es stb.). Tetsz˝oleges k´et elem (x,y) k¨oz¨ott ´ertelmezz¨uk a hasonl´os´agukat. Mi a hasonl´os´ag helyett annak inverz´evel, a k¨ul¨onb¨oz˝os´eggel dolgozunk (d(x, y)). A d(x, y)-t´ol elv´arjuk (amellett, hogy d(x, y)≥ 0) azt, hogy

I. reflex´ıv: d(x, x) = 0,

II. szimmetrikus legyen: d(x, y) =d(y, x),

III. ´es teljes¨ulj¨on a h´aromsz¨og-egyenl˝otlens´eg : d(x, z)≤d(x, y) +d(y, z),

teh´at a k¨ul¨onb¨oz˝os´eg metrika (t´avols´ag) legyen². A tov´abbiakban elemek k¨ul¨onb¨oz˝os´ege helyett gyakran mondunk elemekt´avols´ag´at.

A klaszterez´es leg´altal´anosabb eset´eben minden egyes elemp´ar t´avols´aga el˝ore meg van adva.

Az adatokat ekkor egy ´un. t´avols´ag m´atrixszal reprezent´aljuk:







0 d(1,2) d(1,3) · · · d(1, n) 0 d(2,3) · · · d(2, n) 0 · · · d(3, n)

. .. ... 0





 ,

2Megjegyz´es: Ha a 3. tulajdons´ag nem teljes¨ul, akkor szemi-metrik´ar´ol besz´el¨unk, ha az er˝osebb d(x, y)≤

≤max{d(x, z), d(y, z)}tulajdons´ag ´all fenn, akkor pedig ultrametrikusr´ol (m´as n´even nem-archim´edeszi).

ahol d(i, j) adja meg az i-edik ´es a j-edik elem k¨ul¨onb¨oz˝os´eg´et.

A gyakorlatban azn elem (vagy objektum) attrib´utumokkal van le´ırva, ´es a k¨ul¨onb¨oz˝os´eget az attrib´utumok alapj´an defini´alhatjuk valamilyen t´avols´agf¨uggv´ennyel. Ha megadjuk a t´avols´agf¨uggv´enyt, akkor elvben fel´ırhatjuk a fenti m´atrixot. Sok esetben azonban az elemek sz´ama olyan nagy, hogy a m´atrix rengeteg helyet foglalna. Modell¨unkben ez´ert rendelkez´es¨unkre

´allnak az attrib´utumokkal megadott elemek halmaza ´es a t´avols´agf¨uggv´eny. Az n ´ert´eke nagy lehet, ´ıgy nem tehetj¨uk fel, hogy az adatok elf´ernek a mem´ori´aban.

Sokszor fogjuk a klaszterez´est gr´afparticion´al´asi feladatk´ent vizsg´alni. Az elemekre tekint-het¨unk ´ugy, mint egy G= (V, E) s´ulyozott, ir´any´ıtatlan, teljes gr´af pontjaira, ahol az ´eleken tal´alhat´o s´ulyok a t´avols´agot, vagy ´eppen a hasonl´os´agot adj´ak meg. Az (u, v)∈E ´el s´uly´at w(u, v)-vel jel¨olj¨uk.

Vannak algoritmusok, amelyek nem az eredeti gr´afon dolgoznak, hanem az ´ugynevezett k-legk¨ozelebbi szomsz´ed gr´afon, amitGk-val jel¨ol¨unk.Gk-ban is a pontoknak az elemek, az ´eleken tal´alhat´o s´ulyok pedig a hasonl´os´agoknak felelnek meg, de itt csak azokat az ´eleket t´aroljuk, amelyek egyik pontja a m´asik pontklegk¨ozelebbi pontjai k¨oz¨ott szerepel. Az al´abbi ´abr´an ilyen gr´afokat l´athatunk:

k=0 k=1 k=2 k=3

7.1. ´abra. P´elda k-legk¨ozelebbi szomsz´ed gr´afokra k=0,1,2,3 eset´en

Ha az adathalmazt ak-legk¨ozelebbi szomsz´ed gr´affal ´abr´azoljuk, akkor ugyan veszt¨unk n´emi inform´aci´ot, de a l´enyeg megmarad, ´es j´oval kevesebb helyre van sz¨uks´eg¨unk. Az egym´ast´ol nagyon t´avoli elemek nem lesznek ¨osszek¨otve Gk-ban. Tov´abbi el˝ony, hogy amennyiben egy klaszter s˝ur˝us´eg´et a benne tal´alhat´o ´elek ¨osszs´uly´aval m´erj¨uk, akkor a s˝ur˝u klaszterekn´el ez az

´ert´ek nagy lesz, ritk´akn´al pedig kicsi.

7.3. A klaszterek jellemz˝ oi

AC klaszter elemeinek sz´am´at|C|-vel jel¨olj¨uk. A klaszter

”nagys´ag´at” pr´ob´alja megragadni a klaszter ´atm´er˝oje (D(C)). A k´et legelterjedtebb defin´ıci´o az elemek k¨oz¨otti ´atlagos, illetve a maxim´alis t´avols´ag :

Davg(C) = X

p∈C

q∈C

d(p, q)

|C|² , Dmax(C) = max

p,q∈Cd(p, q).

´Izl´es k´erd´ese, hogy a klaszter ´atm´er˝oj´enek sz´am´ıt´asakor figyelembe vessz¨uk-e a pontok ¨onma-gukt´ol vett t´avols´ag´at (ami 0). Nyugodtan haszn´alhatjuk az ´atm´er˝oD⁰_avg(C) =

p,q∈C,p6=qd(p,q)

(^|C|2 ) =

= 2_N^N₋₁Davg(C) defin´ıci´oj´at is. A klaszterek k¨oz¨otti t´avols´agot (d(Ci, Cj)) is t¨obbf´elek´eppen

´ertelmezhetj¨uk.

d(p, q), ami a k¨ul¨on klaszterben l´ev˝o pontp´arok ´atlagos t´avols´ag´at adja meg.

Egyes´ıtett klaszter ´atm´er˝oje : dD(Ci, Cj) =D(Ci∪Cj)

A vektort´erben megadott elemekn´el gyakran haszn´alt fogalmak a klaszter k¨oz´eppontja (~m_C)

´es asugara (RC).

A klaszterek k¨oz¨otti t´avols´ag m´er´es´ere pedig gyakran alkalmazz´ak a k¨oz´eppontok k¨oz¨otti t´avols´ag ´ert´ek´et :

dmean(Ci, Cj) =|m~i−m~j|.

Az ´atlagok kisz´am´ıt´as´an´al – p´eld´aul ´atm´er˝o, sug´ar eset´eben – sz´amtani k¨ozepet haszn´altunk.

Bizonyos cikkekben n´egyzetes k¨ozepet alkalmaznak helyette. Tulajdonk´eppen tetsz˝oleges k¨oz´ep haszn´alhat´o, egyik sem rendelkezik elm´eleti el˝onnyel a t¨obbivel szemben. Gondoljuk meg azon-ban, hogy a hatv´any alap´u k¨ozepekn´el j´oval nagyobb sz´amokkal dolgozunk, ´ıgy ezek sz´am´ıt´asa esetleg nagyobb ´atmeneti t´arat k´ıv´an.

A n´egyzetes k¨oz´epnek el˝onye a sz´amtani k¨oz´eppel szemben, hogy k¨onny˝u kisz´am´ıtani, amennyiben vektort´erben dolgozunk. Ezt a BIRCH algoritmusn´al (7.7.3. r´esz) is kihaszn´alj´ak, ahol nem t´arolj´ak a klaszterekben tal´alhat´o elemeket, hanem csak 3 adatot :|C|,LS~ _C=P

p∈C~p, SSC =P

p∈C~p~p^T. K¨onny˝u bel´atni, hogy a fenti h´arom adatb´ol k´et klaszter (Ci, Cj) k¨oz¨otti

´atlagos t´avols´ag (´es hasonl´oan az egyes´ıtett klaszter ´atm´er˝oje) k¨ozvetlen¨ul ad´odik:davg(Ci, Cj)=

=^SS^Ci^+SS^Cj⁻²^LS^~ ^Ci^LS^~

Mint m´ar eml´ıtett¨uk, a klaszterez´es j´os´ag´ara nem lehet minden szempontot kiel´eg´ıt˝o, ob-jekt´ıv m´ert´eket adni. Ennek ellen´ere n´eh´any f¨uggv´eny minimaliz´al´asa igen elterjedt a klaszterez˝o algoritmusok k¨oz¨ott.

A tov´abbiakban n darab elemet kell k r¨ogz´ıtett sz´am´u csoportba sorolni ´ugy, hogy a cso-portok diszjunktak legyenek, ´es minden csoportba ker¨ulj¨on legal´abb egy elem.

7.4.1. Klasszikus m´ ert´ ekek

Az al´abbi probl´em´akat k¨ul¨onb¨oztetj¨uk meg a minimaliz´aland´o c´elf¨uggv´eny alapj´an:

Minim´alis ´atm´er˝o probl´ema : C´elunk itt a legnagyobb klaszter´atm´er˝o minimaliz´al´asa.

Atm´er˝onek ez esetben´ D_max-ot szok´as haszn´alni.

k-medi´an probl´ema : V´alasszuk ki az n elem k¨oz¨ul k ´un. reprezent´ans elemet, amelyek a minim´alis hiba¨osszeget adj´ak. Egy elem hib´aja a hozz´a legk¨ozelebbi reprezent´ans elem t´avols´aga. A feladat NP-neh´ez, m´eg akkor is, ha olyan s´ıkba rajzolhat´o gr´afokra szor´ıtkozunk, amelyeknek a maxim´alis foksz´ama 3 (ha a gr´af fa, akkor m´ar lehet poli-nomrend˝u algoritmust adni, p= 2 eset´eben a feladat line´aris id˝oben megoldhat´o)[70]. A feladat NP-neh´ez marad, ha a gr´af Euklideszi t´erbe k´epezhet˝o, s˝ot, konstans szorz´o erej´eig k¨ozel´ıt˝o megold´ast adni, m´eg ilyenkor is, neh´ez feladat [92]!

k-center probl´ema : Ez a feladat a k-medi´an m´odos´ıt´asa, csak itt a legnagyobb hib´at kell minimaliz´alni.

k-klaszter probl´ema : C´elunk itt a klaszteren bel¨uli t´avols´ag¨osszegek (Pk i=1

p,q∈Cid(p, q) =

= Pk

i=1|C|²Davg(Ci)) minimaliz´al´asa. A feladat (´es konstans szorz´o erej´eig annak k¨ozel´ıt´ese) NP-neh´ez k≥2 (k≥3) eset´en [116].

Legkisebb (n´egyzetes) hiba¨osszeg : Csoportos´ıtsuk ´ugy a pontokat, hogy a k¨oz´eppontokt´ol val´o t´avols´ag ¨osszege (E=Pk

i=1

p∈Ci(|~p−m~Ci|)) minim´alis legyen. Nyilv´anval´o, hogy ez a megk¨ozel´ıt´es csak olyan esetekben haszn´alhat´o, amikor ´ertelmezni tudjuk a klaszterek k¨oz´eppontj´at (m~Ci-t).

Sok esetben a k¨oz´eppontokt´ol val´o t´avols´ag¨osszeg helyett a t´avols´ag n´egyzeteinek ¨osszeg´et mi-nimaliz´alj´ak.

Legkisebb (n´egyzetes) hiba¨osszeg probl´ema el´egg´e hasonl´ıt a k-klaszter probl´em´ahoz.

7.2. ´eszrev´etel. Pk

Azok az algoritmusok, amelyek a fenti c´elf¨uggv´enyeket minimaliz´alj´ak, az elemeket kis kompakt felh˝okbe csoportos´ıtj´ak. Ez valamennyire elfogadhat´onak t˝unik, azonban ezeknek a megk¨ozel´ıt´eseknek sz´amos s´ulyos h´atr´anya van.

I. Legfontosabb, hogy csak elliptikus klasztereket gener´al, teh´at tetsz˝oleges am˝oba alak´u, de kompakt klasztert felv´ag kisebb k¨or alak´u klaszterekre.

II. Rosszul csoportos´ıt, ha a klaszterek k¨oz¨ott nagyok a m´eretk¨ul¨onbs´egek. Ennek oka

In document Magyar nyelv˝ u irodalom (Pldal 169-0)