• Nem Talált Eredményt

Az asszoci´aci´os szab´aly fogalma

In document Magyar nyelv˝ u irodalom (Pldal 101-104)

4. Gyakori elemhalmazok 62

5.1. Az asszoci´aci´os szab´aly fogalma

Haszn´aljuk a 4.1 r´eszben bevezetett defin´ıci´okat ´es jel¨ol´eseket (elemhalmaz, kos´ar, t´amogatotts´ag, fed´es, gyakori elemhalmaz stb.).

5.1. defin´ıci´o (asszoci´aci´os szab´aly). LegyenTazIhatv´anyhalmaza felett ´ertelmezett soro-zat. AzR:I1−→c,s I2 kifejez´estcbizonyoss´ag´u,st´amogatotts´ag´u asszoci´aci´os szab´alynak nevezz¨uk, ha I1, I2 diszjunkt elemhalmazok, ´es

c= suppT(I1∪I2) suppT(I1) , s=suppT(I1∪I2)

A szab´aly bal oldal´at felt´etel r´esznek, a jobb oldal´at pedig k¨ovetkezm´eny r´esznek nevezz¨uk.

Az R:I1→I2 szab´aly bizonyoss´ag´ara gyakranconf(R)-k´ent hivatkozunk.

”Felm´er´esek igazolj´ak, hogy azok

Feladat egy adott kos´arsorozatban azon asszo-ci´aci´os szab´alyok megtal´al´asa, amelyek gyakoriak (t´amogatotts´aguk legal´abb min supp), ´es bizonyoss´aguk egy el˝ore megadott korl´at felett van. Jel¨olj¨uk ezt a bi-zonyoss´agi korl´atot min conf-fal. A felt´etelt kiel´eg´ıt˝o szab´alyokat ´erv´enyes asszoci´aci´os szab´alyoknak h´ıvjuk, az 1 bizonyoss´aggal rendelkez˝oket pedig egzakt asszoci´aci´os szab´alynak.

5.2. defin´ıci´o (´erv´enyes asszoci´aci´os szab´aly). T ko-sarak sorozat´aban, min supp t´amogatotts´agi ´es min conf bizonyoss´agi k¨usz¨ob mellett az I1

−→c,s I2 asszoci´aci´os szab´aly ´erv´enyes, amennyiben I1∪I2 gya-kori elemhalmaz, ´es c≥min conf

A fenti feladatot k´et l´ep´esben oldjuk meg. El˝osz¨or el˝o´all´ıtjuk a gyakori elemhalmazokat, majd ezekb˝ol az ´erv´enyes asszoci´aci´os szab´alyokat. Az els˝o l´ep´esr˝ol sz´ol a 4. fejezet, n´ezz¨uk most a m´asodik l´ep´est.

Minden I gyakori term´ekhalmazt bontsunk fel k´et diszjunkt nem ¨ures r´eszre (I =I1∪I2), majd ellen˝orizz¨uk, hogy teljes¨ul-e a supp(Isupp(I)1) ≥ min conf felt´etel. Amennyiben igen, akkor a I1 →I2 egy ´erv´enyes asszoci´aci´os szab´aly. A t´amogatotts´ag anti-monoton tulajdons´ag´at fel-haszn´alhatjuk annak ´erdek´eben, hogy ne v´egezz¨unk t´ul sok felesleges kett´eoszt´ast.

5.3. ´eszrev´etel. Amennyiben I1, I gyakori elemhalmazok a T bemeneti sorozatban, ´es I1⊂I, illetve I1→I\I1 nem ´erv´enyes asszoci´aci´os szab´aly, akkor I10 →I\I10 sem ´erv´enyes semmilyen I10 ⊂I1-re.

Bizony´ıt´as: Az I1

−→c,s I\I1 nem ´erv´enyes szab´aly, teh´at c=supp(Isupp(I1(I1\)I1))=supp(Isupp(I)1) < min conf. Mivel a t´amogatotts´ag anti-monoton, ez´ert supp(I10)≥supp(I1), amib˝ol supp(I1 0

1)supp(I1 1), ´es ebb˝ol, ha c0-vel jel¨olj¨uk az I10 →I\I10 szab´aly bizonyoss´ag´at, akkor

c0= supp(I)

supp(I10) ≤ supp(I)

supp(I1) < min conf teh´at I10 →I\I10 sem ´erv´enyes asszoci´aci´os szab´aly.

Weka 3.5.7 Az asszoci´aci´os szab´alyokkal kapcsolatos oszt´alyokat az Explorer Associate f¨ul´en kereszt¨ul ´erhetj¨uk el.

5.1.1. Maxim´ alis k¨ ovetkezm´ eny˝ u asszoci´ aci´ os szab´ aly

A maxim´alis m´eret˝u gyakori mint´akb´ol az ¨osszes gyakori mint´at meghat´arozhatjuk. Ez abb´ol k¨ovetkezik, hogy gyakori minta minden r´eszmint´aja gyakori. Asszoci´aci´o szab´alyokn´al is vannak olyanok, amelyekb˝ol m´as szab´alyok levezethet˝ok. N´ezz¨unk k´et egyszer˝u levezet´esi szab´alyt. Tegy¨uk fel, hogy I1→I2 ´erv´enyes asszoci´aci´os szab´aly, ekkor

– I1→I20 is ´erv´enyes, minden I20 ⊆I2-re.

– I1∪i→I2\{i}is ´erv´enyes mindeni∈I2-re. Ezek szerint a k¨ovetkezm´enyr´eszb˝ol tetsz˝oleges elemet ´attehet¨unk a felt´etelr´eszbe.

Mindk´et ´all´ıt´as a t´amogatotts´ag anti-monoton tulajdons´ag´ab´ol k¨ozvetlen¨ul ad´odik.

Ezek szerint minden asszoci´aci´os szab´aly levezethet˝o a maxim´alis k¨ovetkezm´enyr´esszel ren-delkez˝o asszoci´aci´os szab´alyokb´ol. Persze a levezethet˝os´eg nem a lejobb sz´o, ugyanis a szab´alyok param´etereire nem tudunk k¨ovetkeztetni.

5.1.2. Egzakt asszoci´ aci´ os szab´ alyok b´ azisa

A 100%-os bizonyoss´aggal rendelkez˝o asszoci´aci´os szab´alyokat egzakt asszoci´aci´os szab´alyoknak h´ıvjuk. Az egzakt asszoci´aci´os szab´alyokra ´erv´enyes tranzitivit´as is, teh´atI1→I2

´esI2→I3-b´ol k¨ovetkezik, hogy I1→I3. Matematikus be´all´ıtotts´ag´u emberek agy´aban azonnal felmer¨ul, hogy van-e az egzakt asszoci´aci´os szab´alyoknak egy minim´alis b´azisa, amelyb˝ol min-den egzakt asszoci´aci´os szab´aly levezethet˝o. Ehhez a b´azishoz a pszeud´o-z´art elemhalmazokon kereszt¨ul jutunk.

5.4. defin´ıci´o. Az I elemhalmaz T-re n´ezve z´art, amennyiben nem l´etezik olyan I0 minta, amelynekI val´odi r´eszhalmaza, ´esI0 t´amogatotts´aga megegyezikI t´amogatotts´ag´aval (supp(I0)=

=supp(I)).

5.5. defin´ıci´o. I ⊆I pszeudo-z´art elemhalmaz, ha nem z´art, ´es minden pszeudo-z´art I0 ⊂I elemhalmazra fenn´all, hogy lez´artja val´odi r´esze I-nek.

Az ¨ures halmaz pszeudo-z´art, amennyiben az nem z´art. Z´art elemhalmaz fogalm´ahoz

”Pici p´eniszt okozhat a parf¨um”

Forr´as: http://www.ma.

hu/page/cikk/aj/0/166581/1 A pszeudo-z´art elemhalmazok seg´ıts´eg´evel tudunk egy

olyan szab´alyb´azist megadni, amelyekb˝ol az ¨osszes egzakt asszoci´aci´os szab´aly megkaphat´o.

5.6. defin´ıci´o. Legyen F P a pszeudo-z´art elemhalmazok halmaza T-ben. Ekkor a Duquenne–Guigues-b´azist a k¨ovet-kez˝ok´eppen defini´aljuk :

DG={r:I1→h(I1)\I1|I1∈F P, I16=∅}, ahol az I lez´artj´at h(I)-vel jel¨olt¨uk.

5.7. t´etel. A Duquenne–Guigues-b´azisb´ol az ¨osszes egzakt szab´aly levezethet˝o ´es a b´azis mi-nim´alis elemsz´am´u, teh´at az egzakt szab´alyoknak nincsen olyan kisebb elemsz´am´u halmaza, amelyb˝ol az ¨osszes egzakt asszoci´aci´os szab´aly levezethet˝o.

A Duquenne–Guigues-b´azis maghat´aroz´as´ahoz a pszeudo-z´art elemhalmazokra van sz¨uks´eg, amelyek a nem z´art gyakori elemhalmazokb´ol ker¨ulnek ki. A pszeudo-z´arts´ag eld¨ont´es´ehez a defin´ıci´ob´ol indulunk ki: amennyiben I nem z´art gyakori term´ekhalmaznak l´etezik olyan r´eszhalmaza, amely lez´artja tartalmazza I-t, akkor I nem pszeudo-z´art elemhalmaz. Ellenkez˝o esetben az. Jel¨olj¨uk az i-elem˝u gyakori, illetve gyakori z´art halmazokat GYi ´es ZGYi-vel.

Az algoritmus menete a k¨ovetkez˝o : Vegy¨uk fel az ¨ures halmazt a pszeudo-z´artak k¨oz´e, amennyiben az nem z´art. Ezut´an vizsg´aljuk GY1\ZGY1, GY2\ZGY2, . . .GYm\ZGYm halma-zokat. Az I∈GYi\ZGYi pszeudo-z´arts´ag´anak eld¨ont´es´ehez, az ¨osszes eddig megtal´alt kisebb elemsz´am´u pszeudo-z´art elemhalmazra ellen˝orizz¨uk, hogy r´eszhalmaza-eI-nek ´es ha igen akkor lez´artja tartalmazza-eI-et. Amennyiben teh´at l´etezik olyanI0∈F Pj (j < i), amire fenn´all, hogy I0 ⊂I ´es I ⊆h(I0), akkor I nem pszeudo-z´art, ellenkez˝o esetben igen. Ekkor I lez´artja az I-t tartalmaz´o legkisebb z´art halmaz.

5.2. ´ Erdekess´ egi mutat´ ok

Az asszoci´aci´os szab´alyok gyakorlati alkalmaz´asa sor´an az al´abbi h´arom s´ulyos probl´ema jelentkezett :

I. Az asszoci´aci´os szab´alyok sz´ama t´ul nagy. Ha magasra ´all´ıtjuk a k´et k¨usz¨obsz´amot, ak-kor kev´es szab´aly lesz ´erv´enyes, azonban ekak-kor sz´amos – am´ugy ´erdekes – szab´aly rejt-ve marad. Ellenkez˝o esetben azonban rengeteg szab´aly j¨on l´etre, amelyek k¨oz¨ul k´ezzel kiv´alogatni a fontosakat szinte lehetetlen feladat.

II. Az asszoci´aci´os szab´alyok f´elrevezet˝ok lehetnek. Mivel az adatb´any´aszat fontos strat´egiai d¨ont´eseknek adhat alapot, f´elrevezet˝o szab´aly rossz strat´egi´at eredm´enyezhet. Fejts¨uk ki ezt egy kicsit b˝ovebben. Egy asszoci´aci´os szab´alyra szoktak ´ugy tekinteni (helyte-len¨ul!!! l´asd 5.6 r´esz), mint egy val´osz´ın˝us´egi okozatis´ag viszonyra : adott term´ekhalmaz megv´as´arl´asa nagy val´osz´ın˝us´eggel m´asik term´ekhalmaz megv´as´arl´as´at

”okozza”. Az oko-zatis´ag val´osz´ın˝us´eg´et a szab´aly bizonyoss´aga adja meg. Csak ennek az ´ert´ek´et vizsg´alni azonban nem el´eg !

K´epzelj¨unk el egy b¨uf´et, ahol az al´abbiak teljes¨ulnek. Az emberek egyharmada hambur-gert vesz, egyharmada hot-dogot, egyharmada hamburhambur-gert ´es hot-dogot egyszerre. Azok

´es csak azok vesznek majon´ezt, akik hamburgert esznek. Ezek szerint a

”kosarak”66%

tartalmaz hot-dogot ´es 50%-uk hot-dogot ´es majon´ezt is. Emiatt a hot-dog → majon´ez

´erv´enyes asszoci´aci´os szab´aly lehet. Felhaszn´alva az asszoci´aci´os szab´alyok bevezet´es´en´el bemutatott tr¨ukk¨ot, a hot-dog´ert felel˝os r´eszleg vezet˝oje (,) ´ugy d¨ont, hogy a nagyobb

´ert´ekes´ıt´es rem´eny´eben cs¨okkenti a hot-dog ´ar´at ´es n¨oveli a majon´ez´et. A v´arakoz´asokkal ellent´etben a profit cs¨okkenni fog ! Mi´ert ? Az´ert, mert a hamburger fogyaszt´ok a hot-dog kedvez˝o ´ara miatt ink´abb hot-dogot vesznek, aminek val´oj´aban semmi k¨oze a majon´ezhez, azaz annak elad´asa nem fog n˝oni. K¨ovetkeztet´es¨unk az, hogy egy asszoci´aci´os szab´alynem jelent okozatis´agot.

A p´elda j´ol szeml´elteti, hogy a bizonyoss´ag nem a legt¨ok´eletesebb mutat´o az ¨osszef¨ugg´esek m´er´es´ehez. Gondoljunk arra, hogy egy szab´aly bizonyoss´aga a k¨ovetkezm´enyr´esz felt´eteles val´osz´ın˝us´eg´et pr´ob´alja becs¨ulni, teh´atI1

−→c,s I2 eset´enc=p(I2|I1) =p(Ip(I1,I2)

1) . Amennyiben p(I2|I1) megegyezik p(I2)-vel, akkor a szab´aly nem hordoz semmi t¨obblet- hasznos in-form´aci´ot (kiv´eve azt, hogy I2 az I1-et tartalmaz´o kosarakban is ugyanolyan gyakori, mint ´altal´aban. De ilyen szab´aly rengeteg van!).

III. A legt¨obb szab´aly nem ´erdekes. Pontosabban a szab´alyok nagy r´esze bizonyos m´as szab´alyoknak semmitmond´o speci´alis esetei, apr´o m´odos´ıt´asai. Sz¨uks´eg lenne valahogy a szab´alyokat fontoss´aguk alapj´an sorba rendezni, vagy minden szab´alyhoz egy ´erdekess´egi mutat´ot rendelni.

A m´asodik probl´em´ara a f¨uggetlens´egi mutat´o bevezet´ese lesz a megold´as. A harmadik probl´em´anak is k¨oze van a f¨uggetlens´eghez. ´Erdekes szab´alyt, ha

”felhig´ıtunk” egy kicsit f¨ ugget-len elemekkel, akkor m´eg kaphatunk ´erdekes szab´alyt. A felhig´ıtott szab´aly azonban egy extra felt´etelt tartalmaz ´ıgy feleslegesen speci´alist. T¨obbet ´er egy ´altal´anos szab´aly, mint sok speci´alis szab´aly felsoror´asa.

In document Magyar nyelv˝ u irodalom (Pldal 101-104)