• Nem Talált Eredményt

Asszoci´aci´os szab´alyok ´altal´anos´ıt´asa

In document Magyar nyelv˝ u irodalom (Pldal 114-117)

4. Gyakori elemhalmazok 62

5.5. Asszoci´aci´os szab´alyok ´altal´anos´ıt´asa

” A rendszeres alkoholfogyaszt´as n¨oveli az eml´ekez˝otehets´eget, k¨ul¨on¨osen a n˝okn´el – jelen-tette be a Sunday Telegraph Sz´amos ´altal´anos´ıt´as´at tal´alt´ak ki a kutat´ok az

asszo-ci´aci´os szab´alyoknak. Ebben a r´eszben ezekb˝ol szemez-get¨unk.

5.5.1. Hierarchikus asszoci´ aci´ os szab´ alyok

A hierarchikus asszoci´aci´os szab´alyok kinyer´ese a gya-korlatban t´enyleg el˝oker¨ul˝o elv´ar´ask´ent jelentkezett [43, 45, 53, 125, 129, 135]. V´as´arl´asi szok´asok elemz´ese k¨ozben a marketingesek ´uj ig´ennyel ´alltak el˝o. Olyan szab´alyokat is ki szerettek volna nyerni, amelyek term´ekkateg´ori´ak k¨oz¨ott mondanak ki ¨osszef¨ugg´eseket. P´eld´aul a s¨ort v´as´arl´ok 70%-ban valami chips f´el´et is vesznek. Lehet, hogy egyetlen s¨or ´es chips k¨oz¨otti asszoci´aci´os szab´alyt nem nyer¨unk ki,

amennyiben sokfajta s¨or ´es chips l´etezik, ugyanis ezen term´ekek k¨oz¨ott a t´amogatotts´ag

”elapr´oz´odik”. P´eld´aul a s¨or → chips t´amogatotts´aga lehet 5000, de ha ¨otf´ele s¨or l´etezik, akkor term´ek szinten k¨onnyen lehet, hogy mindegyik, s¨ort tartalmaz´o, asszoci´aci´os szab´aly t´amogatotts´aga 1500 alatt lesz ´es nem lesz ´erv´enyes.

Egy ¨uzletnek a kateg´oria szint˝u asszoci´aci´os szab´alyok legal´abb annyira fontosak lehet-nek, mint a term´ekeken ´ertelmezett szab´alyok (pl.: akci´ot hirdet¨unk:’17”-os monitorok ´ori´asi

´arengedm´enyekkel’, mik¨ozben m´as sz´am´ıt´astechnikai alkatr´eszek – p´eld´aul monitorvez´erl˝o k´artya – ´arait megemelj¨uk).

Ahhoz, hogy kateg´ori´ak is szerepelhessenek asszoci´aci´os szab´alyokban, ismern¨unk kell az elemek kateg´ori´akba, a kateg´ori´ak alkateg´ori´akba sorol´as´at, azaz ismern¨unk kell az elemek

taxon´omi´aj´at, k¨ozgazd´asz nyelven sz´olva az elemek nomenklat´ur´aj´at. A term´ek-taxon´omia nem m´as, mint egy gy¨okeres c´ımk´ezett fa, vagy f´ak sorozata. A fa leveleiben tal´alhat´ok az egyes term´ekek, a bels˝o csom´opontokban pedig a kateg´ori´ak. Egy k´epzeletbeli b¨uf´e term´ek-taxon´omi´aja az al´abbi ´abr´an l´athat´o.

´etel

palacsinta

´ızes ur´os kaka´os derelye

ital

alkoholos

bor s¨or

¨ ud´ıt˝o

rostos

almal´e narancsl´e

sz´ensavas

cola tonic

5.1. ´abra. P´elda : k´epzeletbeli b¨uf´e term´ek-taxonomi´aja

Ha a kateg´ori´ak halmaz´at ˆI-vel jel¨olj¨uk, akkor a bemenet tov´abbra is azIfelett ´ertelmezett sorozat, a mintat´er elemei azonban I∪ˆI r´eszhalmazai lesznek. Azt mondjuk, hogy az I kos´ar tartalmazzaI0 elemhalmazt, ha mindeni∈I0 -re vagyi∈I,vagy ∃i0∈I, hogy i∈˝os(i0)2. Teh´at egy kos´ar tartalmaz egy elemhalmazt, ha annak minden elem´et, vagy annak lesz´armazottj´at tar-talmazza. Nyilv´anval´o, hogy ha a taxon´omia egyetlen feny˝ob˝ol ´all, akkor a gy¨ok´erben tal´alhat´o kateg´ori´at minden nem ¨ures kos´ar tartalmazza.

Hasonl´oan m´odos´ıtanunk kell az asszoci´aci´os szab´alyok defin´ıci´oj´at, hiszen a 94. oldalon tal´alhat´o defin´ıci´o szerint minden X −−−−→100%,s Xˆ szab´aly ´erv´enyes lenne, ha ˆX ⊆˝os(X), ´es X gyakori term´ekhalmaz.

5.9. defin´ıci´o (hierarchikus asszoci´aci´os szab´aly). Adott a term´ekek taxon´omi´aja. A ben-ne tal´alhat´o term´ekeket ´es kateg´ori´akat reprezent´al´o levelek, illetve bels˝o csom´opontok hal-maz´at jel¨olj¨uk I-vel. I1−→c,s I2-t hierarchikus asszoci´aci´os szab´alynak nevezz¨uk, haI1, I2 diszjunkt r´eszhalmazaiI-nek, tov´abb´a egyetlen i∈I2 sem ˝ose egyetlen i0 ∈I1-nek sem.

A t´amogatotts´ag (s), ´es bizonyoss´ag (c) defin´ıci´oja megegyezik az 5.1. r´eszben megadottal.

Hierarchikus asszoci´aci´os szab´alyok kinyer´ese cs¨oppnyit sem bonyolultabb a hagyom´anyos asszoci´aci´os szab´alyok kinyer´es´en´el. Amikor a gyakori elemhalmazokat nyerj¨uk ki (pl.: az Ap-riori m´odszerrel), akkor k´epzeletben t¨olts¨uk fel a kosarakat a kosarakban tal´alhat´o elemek

˝os´evel. Term´eszetesen nem kell val´oban el˝o´all´ıtani egy olyan adatb´azist, ami a felt¨olt¨ott kosa-rakat tartalmazza, el´eg akkor el˝o´all´ıtani ezt a kosarat, amikor a tartalm´at vizsg´aljuk.

Ha nem akarunk kinyerni olyan asszoci´aci´os szab´alyokat, amelyben b´arhogyan elosztva egy elem ´es ˝ose is szerepel, akkor sz¨uks´egtelen az is, hogy ilyen elemhalmazokkal foglalkozzunk. Ne

´all´ıtsunk el˝o olyan jel¨oltet, amely ilyen tulajdons´ag´u [129].

2Gy¨okeres gr´afokn´al defini´alhatjuk a sz¨ul˝o, gyermek, ˝os, lesz´armazott fogalmakat. Ezt az alapfogalmak gr´afelm´elet r´esz´eben megtett¨uk.

”A k´ek szem˝u emberek hat´ekonyabban k´epesek tanulni,

´es jobban teljes´ıtenek a vizsg´akon, mint s¨ot´et szem˝uek - ´allap´ıtott´ak meg amerikai kutat´ok.”

Forr´as: http://inforadio.

hu/hir/tudomany/hir−143110 A fentit˝ol k¨ul¨onb¨oz˝o megk¨ozel´ıt´est javasoltak a [45,

53]-ben. Az algoritmus azt az ´eszrev´etelt haszn´alja ki, hogy ha egy tetsz˝oleges kateg´oria ritka, akkor annak minden lesz´armazottja is ritka. ´Eppen ez´ert, az adatb´azis els˝o v´egigolvas´asa sor´an csak a feny˝ok gy¨oker´eben (els˝o szin-ten) tal´alhat´o kateg´ori´ak lesznek a jel¨oltek. A m´asodik v´egigolvas´asn´al a gyakorinak tal´alt elemek gyerekei, a har-madik v´egigolvas´asn´al pedig a m´asodik olvas´asb´ol kiker¨ult gyakori elemek gyerekei, ´es ´ıgy tov´abb. Akkor nincs sz¨uks´eg

tov´abbi olvas´asra, ha vagy egyetlen elem sem lett gyakori, vagy a jel¨oltek k¨oz¨ott csak lev´elelemek voltak.

A gyakori elemp´arok meghat´aroz´as´ahoz el˝osz¨or ism´et csak a gy¨okerekben tal´alhat´o ka-teg´ori´akat vizsg´aljuk, term´eszetesen csak azokat, amelyeknek mindk´et eleme gyakori. A k¨ovet-kez˝o l´ep´esben a p´ar egyik tagj´anak a m´asodik szinten kell lennie, ´es hasonl´oan: az i-edik v´egigolvas´asn´al a jel¨oltp´arosok egyik tagjai-edik szintbeli.

A fenti elj´ar´ast k¨onny˝u ´altal´anos´ıtani gyakori elemh´armasok ´es nagyobb m´eret˝u gyako-ri term´ekhalmazok megtal´al´as´ara. A le´all´asi felt´etel hasonl´o az Apriori algoritmus´ehoz: ha a jel¨oltek k¨oz¨ul senki sem gyakori, akkor minden gyakori hierarchikus term´ekhalmazt meg-tal´altunk. A tov´abbiakban az algoritmust nem t´argyaljuk, r´eszletek ´es fut´asi eredm´enyek tal´alhat´ok [53] cikkben.

Hierarchikus szab´aly

”´erdekess´ege”

Kateg´ori´ak bevezet´es´evel az ´erv´enyes asszoci´aci´ok sz´ama nagym´ert´ekben n˝ohet. Ennek oka az, hogy a kateg´ori´ak t´amogatotts´aga mindig nagyobb, mint a benn¨uk szerepl˝o term´ekek´e,

´ıgy sokszor szerepelnek majd gyakori term´ekhalmazokban, amelyekb˝ol az ´erv´enyes asszoci´aci´os szab´alyokat kinyerj¨uk. A szab´alyok k¨oz¨ott sok semmitmond´o is lesz, amelyek cs¨okkentik az

´attekinthet˝os´eget, ´es a t´enyleg fontos szab´alyok megtal´al´as´at. Egy ilyen semmitmond´o szab´alyt az al´abbi p´elda szeml´eltet :

Egy ´elelmiszer¨uzletben h´aromf´ele tejet lehet kapni: zs´ırszeg´enyt, f´elzs´ırosat, ´es norm´alt.

Az emberek egynegyede zs´ırszeg´eny tejet iszik. Hierarchikus szab´alyok kinyer´ese sor´an t¨obbek k¨oz¨ott az al´abbi k´et ´erv´enyes szab´aly is szerepel (a szab´aly harmadik param´etere a lift ´ert´eket adja) :

tej−−−−−−→80%,4.8%,2 zabpehely zs´ırszeg´eny tej−−−−−−→80%,1.2%,2 zabpehely

L´athat´o, hogy a m´asodik szab´aly kev´esb´e ´altal´anos, mint az els˝o ´es nem hordoz semmi t¨obblet-inform´aci´ot. Jogos teh´at az a kijelent´es, hogy egy szab´aly nem ´erdekes, ha annak bizonyoss´aga ´es t´amogatotts´aga nem t´er el a n´ala ´altal´anosabb szab´aly param´eterei alapj´an becs¨ult ´ert´ekekt˝ol.

A pontos defin´ıci´ok magad´as´aval nem terhelj¨uk az olvas´ot.

5.5.2. Kateg´ oria asszoci´ aci´ os szab´ alyok

Az asszoci´aci´os szab´alyok kinyer´es´en´el a bemenet elemhalmazok sorozatak´ent van megadva (plussz n´eh´any k¨usz¨obsz´am). ´Abr´azolhatjuk a bemenetet, mint bin´aris m´atrix, amelynek az

i-edik sor j-edik eleme egy, ha szerepel azi-edik tranzakci´oban a j-edik elem, k¨ul¨onben nulla.

Tetsz˝oleges bin´aris rel´aci´os t´abl´at is v´alaszthatunk bemenetk´ent, ekkor p´eld´aul nem = f´erfi → t´aj´ekoz´od´asi k´eszs´eg = j´o jelleg˝u szab´alyokat nyer¨unk ki.

K¨onnyen kaphatunk kateg´oria asszoci´aci´os szab´alyt a megl´ev˝o m´odszereinkkel. Minden olyan A attrib´utumot, amely k k¨ul¨onb¨oz˝o ´ert´eket vehet fel (k >2), helyettes´ıts¨unk k darab bin´aris attrib´utummal. Ha egy elem A attrib´utum´anak ´ert´eke az i-edik attrib´utum´ert´ek volt, akkor csak i-edik ´uj attrib´utum ´ert´eke legyen egy, a t¨obbi´e pedig nulla. Az ´ıgy kapott bin´aris t´abl´an m´ar futtathatjuk a kedvenc asszoci´aci´os szab´alyokat kinyer˝o algoritmusunkat.

Weka 3.5.7 Aweka.associations.Apriorialgoritmus a fen-ti konverzi´ot automatikusan elv´egzi, ha kateg´oria t´ıpus´u attrib´utummal tal´alkozik. Ha k´ezzel szeretn´enk mindezt megtenni, akkor haszn´alatjuk a weka.filters.unsupervised.attribute.NominalToBinarysz˝ur˝ot.

In document Magyar nyelv˝ u irodalom (Pldal 114-117)