• Nem Talált Eredményt

Hasonl´os´agi m´ert´ekek

In document Magyar nyelv˝ u irodalom (Pldal 46-50)

2. Alapfogalmak, jel¨ ol´ esek 24

3.2. Hasonl´os´agi m´ert´ekek

Az adatb´any´aszatban gyakran sz¨uks´eg¨unk lesz arra, hogy attrib´utumokkal le´ırt elemek k¨oz¨ott hasonl´os´agot defini´aljunk. Term´eszetesen elv´arjuk, hogy ha min´el ink´abb t¨obb azonos

´ert´ek szerepel az attrib´utumaik k¨oz¨ott ann´al hasonl´obbak legyenek az elemek. A gyakorlat-ban hasonl´os´agi m´ert´ek helyett k¨ul¨onb¨oz˝os´egi m´ert´ekkel dolgozunk, amely a hasonl´os´ag inver-ze (min´el hasonl´obbak, ann´al kev´esb´e k¨ul¨onb¨oz˝ok). Elv´arjuk, hogy k´et elem k¨ul¨onb¨oz˝os´eg´et (d(x, y)) ki lehessen fejezni egy pozit´ıv val´os sz´ammal, tov´abb´a egy elem ¨onmag´at´ol ne k¨ul¨onb¨ozz¨on, szimmetrikus legyen (d(x, y) =d(y, x)), ´es teljes¨ulj¨on a h´aromsz¨og egyenl˝otlens´eg (d(x, y)≤d(x, z)+d(y, z)). Teh´at a k¨ul¨onb¨oz˝os´eg metrika legyen. K´et elem k¨ul¨onb¨oz˝os´ege helyett gyakran mondunk majd k´et elemt´avols´ag´at.

A k¨ovetkez˝okben sorra vessz¨uk, hogyan defini´aljuk a t´avols´agot k¨ul¨onb¨oz˝o t´ıpus´u att-rib´utumok eset´eben, ´es azt, hogy mik´ent lehet egyes attrib´utumok fontoss´ag´at (s´uly´at) megn¨ovelni.

3.2.1. Bin´ aris attrib´ utum

Egy bin´aris attrib´utum olyan kateg´oria t´ıpus´u attrib´utum, amely k´et ´ert´eket vehet fel (pl.:

0 ´es 1). Hogyan hat´arozzuk meg x ´es y elemek hasonl´os´ag´at, ha azok m darab bin´aris att-rib´utummal vannak le´ırva ? K´esz´ıts¨uk el a k¨ovetkez˝o ¨osszefoglal´o t´abl´azatot.

1 0 P

1 q r q+r

0 s t s+t

P q+s r+t m

P´eld´aul az 1-es sor 0-´as oszlop´ahoz tartoz´o ´ert´ek azt jelenti, hogy r darab olyan attrib´utum van, amelyek az x elemn´el 1-et,y-n´al 0-´at vesznek fel.

Ez alapj´an defini´alhatjuk az ´un. invari´ans ´es vari´ans hasonl´os´agot. Az invari´ans hasonl´os´agot olyan esem´enyekn´el haszn´aljuk, amikor a bin´aris attrib´utum k´et ´ert´eke ugyanolyan fontos (szim-metrikus attrib´utum), teh´at mindegy, hogy melyiket k´odoljuk 0-val, illetve 1-essel. Ilyen att-rib´utum p´eld´aul egy ember neme. Az´ert kapta ez a hasonl´os´ag az invari´ans jelz˝ot, mert nem v´altozik az ´ert´eke, ha valaki m´ashogy k´odolja az attrib´utumokat (teh´at k´odol´as invari´ans). A legegyszer˝ubb invari´ans hasonl´os´ag az elt´er˝o attrib´utumok relat´ıv sz´ama :

d(x, y) = r+s m .

Aszimmetrikus attrib´utum eset´eben a k´et lehets´eges ´ert´ek nem egyenrang´u. Ilyen attrib´utum lehet p´eld´aul egy orvosi vizsg´alat eredm´enye. Nagyobb s´ulya van annak a t´enynek, hogy valaki fert˝oz¨ott beteg, mint annak, hogy nem az. A konvenci´oknak megfelel˝oen 1-essel k´odoljuk a l´enyeges (´altal´aban ritka) kimenetet. A legegyszer˝ubb vari´ans hasonl´os´agi m´ert´ek a Jaccard-koefficiens komplementere:

d(x, y) = 1− q

m−t = r+s m−t,

ahol nem tulajdon´ıtunk jelent˝os´eget a nem jelent˝os kimenetek egyez´es´enek.

Amennyiben szimmetrikus ´es aszimmetrikus ´ert´ekek is szerepelnek a bin´aris attrib´utumok k¨oz¨ott, akkor azokat vegyes attrib´utumk´ent kell kezelni (l´asd a 3.2.5-os r´eszt).

3.2.2. Kateg´ oria t´ıpus´ u attrib´ utum

Altal´anos esetben a kateg´oria t´ıpus´´ u attrib´utum nem csak kett˝o, hanem v´eges sok k¨ul¨onb¨oz˝o

´ert´eket vehet fel. Ilyen attrib´utum p´eld´aul az ember szeme sz´ıne, csal´adi ´allapota, vall´asa stb.

A legegyszer˝ubb hasonl´os´ag a nemegyez´esek relat´ıv sz´ama : d(x, y) = u

m,

ahol m a kateg´oria t´ıpus´u attrib´utumok sz´ama,u pedig azt adja meg, hogy ezek k¨oz¨ul mennyi nem egyezett. Term´eszetesen a kateg´oria t´ıpus´u attrib´utumok sem felt´etlen¨ul szimmetrikusak, mert lehet, hogy az alap´ertelmezett ´ert´ekek egyez´ese nem igaz´an fontos. A Jaccard-koefficiens komplementer´et kateg´oria t´ıpus´u attrib´utumokra is fel´ırhatjuk.

3.2.3. Sorrend t´ıpus´ u attrib´ utum

Sorrend t´ıpus´u attrib´utum p´eld´aul az iskolai v´egzetts´eg : 8 ´altal´anos, befejezett k¨oz´episkola,

´eretts´egi, f˝oiskolai diploma, egyetemi diploma, doktori c´ım. Vannak ar´any sk´al´aj´u attrib´utumok, amelyeket ink´abb sorrend t´ıpus´u attrib´utumnak kezel¨unk. P´eld´aul a Forma 1-es versenyeken sem az egyes k¨or¨ok fut´asi ideje sz´am´ıt, hanem az, hogy ki lett az els˝o, m´asodik ...

A sorrend t´ıpus´u attrib´utumokat ´altal´aban eg´esz sz´amokkal helyettes´ıtik – tipikusan 1 ´esM k¨oz¨otti eg´esz sz´amokkal. Ha t¨obb sorrend t´ıpus´u attrib´utumunk van, amelyek a fontos ´allapotok sz´am´aban elt´ernek, akkor c´elszer˝u mindegyiket a [0,1] intervallumba k´epezni az Mx−11 m˝uvelettel.

´Igy mindegyik egyenl˝o s´ullyal szerepel majd a v´egs˝o hasonl´os´agi m´ert´ekben. Ezut´an alkalmaz-hatjuk valamelyik intervallum t´ıpus´u hasonl´os´agot.

3.2.4. Intervallum t´ıpus´ u attrib´ utum

Az intervallum t´ıpus´u attrib´utumokat ´altal´aban val´os sz´amok ´ırj´ak le. Ilyen attrib´utumra p´elda egy ember s´ulya, magass´aga, egy orsz´ag ´eves ´atlagh˝om´ers´eklete stb. Tekinthet¨unk ´ugy egy elemre, mint egy pontra azm-dimenzi´os vektort´erben. Az elemek k¨oz¨otti k¨ul¨onb¨oz˝os´eget a vek-toraik k¨ul¨onbs´eg´enek norm´aj´aval (hossz´aval) defini´aljuk (d(~x, ~y) =||~x−~y||). Legterm´eszetesebb tal´an az Euklideszi-norma, de alkalmazhatjuk a Manhattan-norm´at is. Mindk´et m´ert´ek a Minkowski-norma speci´alis esete.

Euklideszi-norma : L2(~z) =p

|z1|2+|z2|2+· · ·+|zm|2 Manhattan-norma : L1(~z) =|z1|+|z2|+· · ·+|zm|

Minkowski-norma : Lp(~z) = (|z1|p+|z2|p+· · ·+|zm|p)1/p

A p=∞ eset´en k´et vektor t´avols´aga megegyezik a koordin´at´ainak a legnagyobb elt´er´es´evel (L(~z) = max

i {|zi|}).

”Az ide´alis kork¨ul¨onbs´eg f´erj

´es feles´eg k¨oz¨ott hat ´ev. Egy sv´ed kutat´as szerint ilyen Hab´ar az elemek le´ır´as´aban m´ar csak sz´amok

szere-pelnek, a h´att´erben megb´uj´o m´ert´ekegys´egeknek nagy sze-rep¨uk van. Gondoljuk meg, ha m´eter helyett millim´eterben sz´amolunk, akkor sokkal nagyobb ´ert´ekek fognak szerepelni az elemek le´ır´as´aban, ´es ´ıgy a k¨ul¨onbs´egek is megn˝onek. A nagy ´ert´ekk´eszlet˝u attrib´utumoknak nagyobb hat´asuk van a hasonl´os´ag ´ert´ek´ere, mint a kis ´ert´ekk´eszlet˝ueknek. Jo-gos teh´at az egyes attrib´utumok normaliz´al´asa, azaz form´aljuk ˝oket pl. a [0,1] intervallumba, majd ezen transz-form´alt attrib´utumok alapj´an sz´am´ıtsuk a t´avols´agokat (3.3.6 r´esz).

Gyakran el˝ofordul, hogy a k¨ul¨onb¨oz˝os´eg meg´allap´ıt´as´an´al bizonyos attrib´utumokra nagyobb s´ulyt szeretn´enk helyezni. P´eld´aul k´et ember ¨osszehasonl´ıt´as´an´al a hajsz´ınnek nagyobb szerepe van, mint annak, hogy melyik l´abujja a legnagyobb. Ha figyelembe vessz¨uk az attrib´utumok s´ulyait, akkor p´eld´aul az Euklideszi-t´avols´ag ´ıgy m´odosul:

d(x, y) =p

w1|x1−y1|2+w2|x2−y2|2+· · ·+wm|xm−ym|2, ahol wi-vel jel¨olt¨uki-edik attrib´utum s´uly´at ´es legyen Pm

i=1wi= 1.

El˝ofordulhat, hogy olyan attrib´utummal van dolgunk, amely ´ert´ekeit nemline´aris l´ept´ekben

´abr´azoljuk (nemline´aris n¨oveked´es˝u attrib´utumnak szok´as h´ıvni ezeket). P´eld´aul a bakt´erium popul´aci´ok n¨oveked´es´et vagy algoritmusok fut´asi idej´et exponenci´alis sk´al´an ´erdemes ´abr´azolni.

Az ilyen attrib´utumokn´al nem c´elszer˝u k¨ozvetlen¨ul intervallum alap´u hasonl´os´agot alkalmazni, mert ez ´ori´asi k¨ul¨onb¨oz˝os´egeket eredm´enyez azokon a helyeken, ahol kis k¨ul¨onb¨oz˝os´eget v´arunk.

K´et megk¨ozel´ıt´es k¨oz¨ott szok´as v´alasztani. Egyr´eszt haszn´alhatjuk az intervallum alap´u hasonl´os´agot, de nem az attrib´utum eredeti ´ert´ek´en, hanem annak logaritmus´an. M´asr´eszt diszkretiz´alhatjuk az ´ert´ekeket, ´es vehetj¨uk csak a sorrendet a hasonl´os´ag alapj´aul.

3.2.5. Vegyes attrib´ utumok

Az el˝oz˝o r´eszekben azt tekintett¨uk ´at, hogyan defini´aljuk a hasonl´os´agot k´et elem k¨oz¨ott adott t´ıpus´u attrib´utumok eset´en. Mit tegy¨unk akkor, ha egy objektum le´ır´as´an´al vegye-sen adottak a k¨ul¨onb¨oz˝o t´ıpus´u – intervallum, bin´aris, kateg´oria stb. – attrib´utumok? Cso-portos´ıtsuk az egyes attrib´utumokat t´ıpusuk szerint, ´es hat´arozzuk meg a k´et elem ha-sonl´os´ag´at minden csoportra n´ezve. A kapott hasonl´os´agokat k´epezz¨uk a [0,1] intervallumba.

Minden attrib´utumnak feleltess¨unk meg egy dimenzi´ot a t´erben, ´ıgy k´et elem hasonl´os´ag´ahoz hozz´arendelhet¨unk egy vektort a vektort´erben. A hasonl´os´ag ´ert´ek´et feleltess¨uk meg a vektor hossz´anak.

Ennek a megk¨ozel´ıt´esnek a h´atr´anya, hogy ha p´eld´aul egyetlen kateg´oria t´ıpus´u attrib´utum van, akkor az ugyanolyan s´ullyal fog szerepelni, mint ak´ar t´ız bin´aris attrib´utum ¨osszesen.

C´elszer˝u ez´ert az egyes attrib´utumt´ıpusok ´altal szolg´altatott ´ert´ekeket s´ulyozni a hozz´ajuk tartoz´o attrib´utumok sz´am´aval.

3.2.6. Speci´ alis esetek

Egyre t¨obb olyan alkalmaz´as ker¨ul el˝o, ahol a fent defini´alt ´altal´anos hasonl´os´agok nem ragadj´ak meg j´ol k´et elem k¨ul¨onb¨oz˝os´eg´et. A teljess´eg ig´enye n´elk¨ul bemutatunk k´et olyan esetet, amikor speci´alis t´avols´agf¨uggv´enyre van sz¨uks´eg.

Elemsorozatok hasonl´os´aga

Elemsorozaton egy v´eges halmazb´ol vett elemek sorozat´at ´ertj¨uk. P´eld´aul a magyar nyelven

´ertelmezett szavak elemsorozatok. N´ezz¨uk azS=habcdeisorozatot. Legt¨obben azt mondan´ank, hogy a hbcdxyei sorozat jobban hasonl´ıtS-re, mint azhxxxdddi sorozat. Nem ezt kapn´ank, ha a poz´ıci´okban megegyez˝o elemek relat´ıv sz´am´aval defini´aln´ank a hasonl´os´agot.

Egy elterjedt m´ert´ek az elemsorozatok hasonl´os´ag´ara az ´un. szerkeszt´esi t´avols´ag. K´et sorozatnak kicsi a szerkeszt´esi t´avols´aga, ha az egyik sorozatb´ol kev´es elem t¨orl´es´evel ill.

besz´ur´as´aval megkaphatjuk a m´asikat. Pontosabban, k´et sorozat szerkeszt´esi t´avols´aga adja meg, hogy legkevesebb h´any besz´ur´as ´es t¨orl´es m˝uvelettel kaphatjuk meg az egyik sorozatb´ol a m´asikat. A szerkeszt´esi t´avols´ag alapj´an csoportos´ıthatunk dokumentumokat, weboldalakat, DNS sorozatokat, vagy kereshet¨unk illeg´alis m´asolatokat.

Bez´art sz¨og alap´u hasonl´os´ag

Vannak alkalmaz´asok, ahol nem a vektorok k¨ul¨onbs´eg´enek a hossza a l´enyeges, hanem a vektorok ´altal bez´art sz¨og. P´eld´aul dokumentumok hasonl´os´ag´aval kapcsolatban sz´amos ok-fejt´est olvashatunk, hogy mi´ert jobb sz¨ogekkel dolgozni, mint a t´avols´agokkal. Eml´ekeztet˝o¨ul a koszinusz-m´ert´ek pontos k´eplete:

d(x, y) = arccos ~xT~y

||~x||·||~y||.

In document Magyar nyelv˝ u irodalom (Pldal 46-50)