• Nem Talált Eredményt

MSApriori algoritmus

In document Magyar nyelv˝ u irodalom (Pldal 96-100)

4. Gyakori elemhalmazok 61

4.9. T¨obbsz¨or¨os t´amogatotts´agi k¨ usz¨ob

4.9.1. MSApriori algoritmus

K´ezzel megadni a 2I minden elem´enek t´amogatotts´agi k¨usz¨ob´et f´arads´agos, s˝ot nagy |I| eset´en kivitelezhetetlen feladat. Az MSApriori algoritmusn´al csak az egyelem˝u elemhalma-zok t´amogatotts´agi k¨usz¨ob´et lehet megadni. Jel¨olj¨uk az i elem k¨usz¨ob´et M IS(i)-vel. Az I elemhalmaz t´amogatotts´agi k¨usz¨obe legyen a legkisebb t´amogatotts´agi k¨usz¨obbel rendelkez˝o elem´enek t´amogatotts´agi k¨usz¨obe (M IS(I) = mini∈I{M IS(i)}). Akkor gyakori azI halmaz, ha t´amogatotts´aga nagyobb vagy egyenl˝o M IS(I)-n´el.

A defin´ıci´ob´ol k¨ovetkezik, hogy t´enyleg nem mondhatjuk, hogy gyakori minta minden r´eszmint´aja gyakori. P´eld´aul az ABC elemhalmaz BC r´eszhalmaz´anak nagyobb lehet MIS

´ert´eke. Ha a feladat megold´as´ara az APRIORI algoritmust haszn´aljuk ´ugy, hogy csak a gyakori elemhalmazok kiv´alaszt´as´anak m´odj´at m´odos´ıtjuk (min supp cser´eje M IS(I)-re), akkor nem garant´alt, hogy j´o megold´ast kapunk. Ha p´eld´aul a BC ritka, akkor azABC halmaz nem lenne a jel¨oltek k¨oz¨ott annak ellen´ere, hogy ak´ar gyakori is lehet.

”Vaks´agot okoz a nyakkend˝o A kutat´as szerint a szorosan megk¨ot¨ott nyakkend˝o cs¨ okkenthe-ti a nyaki v´ena hat´ekonys´ag´at, ez´altal a szem v´erell´at´as´at,

´es h´alyog kialakul´as´ahoz, legs´ulyosabb esetben pedig r´eszleges vagy teljes vaks´aghoz vezethet. M´eg vesz´elyesebb a helyzet a v´ekony nyak´u emberek eset´eben, mert az ˝o v´en´ajuk

´erz´ekenyebb – mutatnak r´a az orvosok.” Forr´as : http://pvg.

uw.hu/cikk/nyakkendo.html Szerencs´ere a probl´ema k¨onnyen orvosolhat´o. Csak

azt kell ´eszrevenn¨unk, hogy mi okozhatja a hib´at. Az

´altal´anoss´ag megs´ert´ese n´elk¨ul feltehetj¨uk, hogy az ele-mek MIS ´ert´ek¨uk alapj´an n¨ovekv˝o sorba vannak rendez-ve. A MIS defin´ıci´oj´ab´ol k¨ovetkezik, hogy tetsz˝oleges `-elem˝u I = {i1, . . . , i`} halmaz `−1 darab (`−1)-elem˝u r´eszhalmaz´anak MIS ´ert´eke megegyezik I MIS ´ert´ek´evel, amiM IS(i1). Ezeknek a r´eszhalmazoknak teh´at gyakorinak kell lenni¨uk, hiszen a t´amogatotts´ag monotons´aga most is fenn´all. Az egyetlen r´eszhalmaz, amely lehet ritka, az I leg-els˝o elem´et nem tartalmaz´o r´eszhalmaz. Ezt a r´eszhalmazt teh´at ne vizsg´aljuk a jel¨olt el˝o´all´ıt´as m´asodik l´ep´ese sor´an.

Kiv´etel ez al´ol azon eset, amikor a m´asodik elem MIS ´ert´eke megegyezik az els˝o elem MIS ´ert´ek´evel, mert ekkor m´eg en-nek a r´eszhalmaznak is gyakorinak kell lennie.

Amennyiben ` > 2, akkor biztos, hogy a gener´atorok egyike sem egyezik meg a legkisebb elemet nem tartalmaz´o

r´eszhalmazzal (`>2 eset´eben ugyanis a gener´atorok (`−2)-elem˝u prefixei megegyeznek, amelyek biztos, hogy tartalmazz´ak a jel¨olt els˝o elem´et). Ez pedig garant´alja, hogy az algoritmus teljes, amennyiben az ¨osszes gyakori elemp´art megtal´altuk. N´ezz¨uk meg most az egy- ´es k´etelem˝u jel¨oltek eset´et.

Gyakori elemek meghat´aroz´as´an´al a szok´asos elj´ar´ast k¨ovetj¨uk : minden elem jel¨olt.

Elemp´arok eset´eben azonban nem ´all´ıthatjuk, hogy egy p´ar akkor jel¨olt, ha mindk´et eleme gyakori. P´eld´aul az AB p´ar lehet gyakori akkor is, ha azA ritka. Ha ugyanis B-nek MIS ´ert´eke kisebbA-nak MIS ´ert´ek´en´el, akkor azAB-nek a MIS ´ert´eke megegyezikB-nek a MIS ´ert´ek´evel,

´ıgyAB lehet gyakori. Szerencs´ere sz¨uks´egtelen az ¨osszes elemet figyelembe venni. Ha p´eld´aul az Aelem ritka ´es azAMIS ´ert´eke a legkisebb, akkor a t´amogatotts´ag monotons´ag´ab´ol k¨ovetkezik, hogy az A-t tartalmaz´o halmazok ritk´ak. Ha teh´at MIS ´ert´ek szerint n¨ovekv˝oen vannak ren-dezve az elemek, akkor a legkisebb˝ol kiindulva keress¨uk meg az els˝o gyakori elemet. Az ¨osszes ut´ana k¨ovetkez˝ot figyelembe kell venni a jel¨oltp´arok el˝o´all´ıt´as´an´al akkor is, ha valamelyik ritka.

Asszoci´ aci´ os szab´ alyok

A gyakori elemhalmazokat felhaszn´alhatjuk arra, hogy gyakori elemhalmazokra vonatkoz´o szab´alyokat nyerj¨unk ki bel˝ol¨uk. Az I1→I2 asszoci´aci´os szab´aly azt ´all´ıtja, hogy azon bemeneti elemek, amelyek tartalmazz´akI1-et, tartalmazz´ak ´altal´abanI2-t is. P´eld´aul a pelenk´at v´as´arl´ok s¨ort is szoktak venni.

Mi az ´ertelme ezeknek a szab´alyoknak ? P´eld´aul az, hogy szupermarket extra profithoz juthat az al´abbi m´odon : HaI1→I2 szab´aly igaz, akkor ´ori´asi h´ırver´es k¨ozepette cs¨okkents¨ukI1

term´ekek ´ar´at (mondjuk 15%-kal). Emellett diszkr´eten emelj¨uk meg I2 term´ek ´ar´at (mondjuk 30%-kal) ´ugy, hogy az I1 ´arcs¨okkent´es´eb˝ol sz´armaz´o profitcs¨okken´es kisebb legyen, mint azI2

´aremel´es´eb˝ol sz´armaz´o profitn¨oveked´es. Az I1 ´es I2 term´ekek elad´asai egy¨utt mozognak, teh´at azI2term´ek elad´asa is n˝oni fog. Amit veszt¨unk a r´even, azt megnyerj¨uk a v´amon : ¨osszess´eg´eben a profitunk n˝oni fog, ´es a le´araz´as rekl´amnak is j´o volt.

Korunkra jellemz˝o olcs´o internetes ¨uzletek is ilyen szab´alyok alapj´an dolgoznak. Tudj´ak milyen term´eket v´as´arolnak egy¨utt. Sokszor az egy¨utt v´as´arl´ast el˝o is ´ırj´ak azzal, hogy nem adj´ak el ¨onmag´aban az olcs´o ´arucikket, csak akkor, ha megveszi az ¨ugyf´el a dr´aga kieg´esz´ıt˝ot is.

Az ilyen szab´alyokb´ol nyert inform´aci´ot haszn´alhatj´ak emellett ´aruh´azak term´ekt´erk´ep´enek kialak´ıt´as´ahoz is. C´el a term´ekek olyan elrendez´ese, hogy a vev˝ok elhaladjanak az ˝oket

´erdekelhet˝o term´ekek el˝ott. Gondoljuk meg, hogyan lehet kiakn´azni e c´elb´ol egy asszoci´aci´os szab´alyt.

Elemhalmazok sorozat´at ´abr´azolhatjuk bin´aris ´ert´ekeket tartalmaz´o t´abl´aval is. Ekkor az asszoci´aci´os szab´alyok attrib´utumok k¨oz¨otti ¨osszef¨ugg´est mutatnak : ha az I1 attrib´utumok

´ert´ekei 1-es, akkor nagy val´osz´ın˝us´eggel azI2 attrib´utumok ´ert´eke is az. A val´osz´ın˝us´eg ´ert´ek´et a szab´alybizonyoss´agaadja meg. Csak olyan szab´alyok lesznek ´erdekesek, amelyek bizonyoss´aga magas. P´eld´aul a h´azass´agban ´el˝ok 85%-´anak van gyermek¨uk.

Az asszoci´aci´os szab´alyok felhaszn´al´asi ter¨ulete egyre b˝ov¨ul. A piaci strat´egia meg-hat´aroz´as´an t´ul egyre fontosabb szerepet j´atszik a d¨ont´est´amogat´as ´es p´enz¨ugyi el˝orejelz´esek ter¨ulet´en is.

N´ezz¨uk most az asszoci´aci´os szab´aly pontos defin´ıci´oj´at.

91

5.1. Az asszoci´ aci´ os szab´ aly fogalma

Haszn´aljuk a 4.1 r´eszben bevezetett defin´ıci´okat ´es jel¨ol´eseket (elemhalmaz, kos´ar, t´amogatotts´ag, fed´es, gyakori elemhalmaz stb.).

5.1. defin´ıci´o (asszoci´aci´os szab´aly). LegyenT azIhatv´anyhalmaza felett ´ertelmezett soro-zat. AzR:I1−→c,s I2 kifejez´estcbizonyoss´ag´u,s t´amogatotts´ag´u asszoci´aci´os szab´alynaknevezz¨uk, ha I1, I2 diszjunkt elemhalmazok, ´es

c= suppT(I1∪I2) suppT(I1) , s=suppT(I1∪I2)

A szab´aly bal oldal´at felt´etel r´esznek, a jobb oldal´at pedig k¨ovetkezm´eny r´esznek nevezz¨uk.

Az R:I1→I2 szab´aly bizonyoss´ag´ara gyakran conf(R)-k´ent hivatkozunk.

”Felm´er´esek igazolj´ak, hogy azok a legboldogabb p´arok, akik nem-csak h´etk¨oznapi probl´em´ajukat osztj´ak meg egym´assal, de mernek a titkos ´almaikr´ol is besz´elni.”

Forr´as : Wellness 2007. okt´oberi sz´am 106. oldal

Feladat egy adott kos´arsorozatban azon asszo-ci´aci´os szab´alyok megtal´al´asa, amelyek gyakoriak (t´amogatotts´aguk legal´abb min supp), ´es bizonyoss´aguk egy el˝ore megadott korl´at felett van. Jel¨olj¨uk ezt a bi-zonyoss´agi korl´atot min conf-fal. A felt´etelt kiel´eg´ıt˝o szab´alyokat ´erv´enyes asszoci´aci´os szab´alyoknak h´ıvjuk, az 1 bizonyoss´aggal rendelkez˝oket pedig egzakt asszoci´aci´os szab´alynak.

5.2. defin´ıci´o (´erv´enyes asszoci´aci´os szab´aly). T ko-sarak sorozat´aban, min supp t´amogatotts´agi ´es min conf bizonyoss´agi k¨usz¨ob mellett az I1

−→c,s I2 asszoci´aci´os szab´aly ´erv´enyes, amennyiben I1∪I2 gya-kori elemhalmaz, ´es c≥min conf

A fenti feladatot k´et l´ep´esben oldjuk meg. El˝osz¨or el˝o´all´ıtjuk a gyakori elemhalmazokat, majd ezekb˝ol az ´erv´enyes asszoci´aci´os szab´alyokat. Az els˝o l´ep´esr˝ol sz´ol a 4. fejezet, n´ezz¨uk most a m´asodik l´ep´est.

Minden I gyakori term´ekhalmazt bontsunk fel k´et diszjunkt nem ¨ures r´eszre (I=I1∪I2), majd ellen˝orizz¨uk, hogy teljes¨ul-e a supp(Isupp(I)1) ≥ min conf felt´etel. Amennyiben igen, akkor a I1 →I2 egy ´erv´enyes asszoci´aci´os szab´aly. A t´amogatotts´ag anti-monoton tulajdons´ag´at fel-haszn´alhatjuk annak ´erdek´eben, hogy ne v´egezz¨unk t´ul sok felesleges kett´eoszt´ast.

5.3. ´eszrev´etel. Amennyiben I1, I gyakori elemhalmazok a T bemeneti sorozatban, ´es I1⊂I, illetve I1→I\I1 nem ´erv´enyes asszoci´aci´os szab´aly, akkor I10 →I\I10 sem ´erv´enyes semmilyen I10 ⊂I1-re.

Bizony´ıt´as: Az I1

−→c,s I\I1 nem ´erv´enyes szab´aly, teh´at c=supp(Isupp(I1(I1\)I1))=supp(Isupp(I)1) < min conf. Mivel a t´amogatotts´ag anti-monoton, ez´ert supp(I10)≥supp(I1), amib˝ol supp(I1 0

1)supp(I1 1), ´es ebb˝ol, ha c0-vel jel¨olj¨uk az I10 →I\I10 szab´aly bizonyoss´ag´at, akkor

c0= supp(I)

supp(I10) ≤ supp(I)

supp(I1) < min conf teh´at I10 →I\I10 sem ´erv´enyes asszoci´aci´os szab´aly.

Weka 3.5.7 Az asszoci´aci´os szab´alyokkal kapcsolatos oszt´alyokat az Explorer Associatef¨ul´en kereszt¨ul ´erhetj¨uk el.

In document Magyar nyelv˝ u irodalom (Pldal 96-100)