• Nem Talált Eredményt

2018.m´ajus10. CsimaJudit Asszoci´aci´os-szab´alyok,3.r´esz

N/A
N/A
Protected

Academic year: 2022

Ossza meg "2018.m´ajus10. CsimaJudit Asszoci´aci´os-szab´alyok,3.r´esz"

Copied!
21
0
0

Teljes szövegt

(1)

Asszoci´ aci´ os-szab´ alyok, 3. r´ esz

Csima Judit

BME, VIK,

Sz´am´ıt´astudom´anyi ´es Inform´aci´oelm´eleti Tansz´ek

2018. m´ajus 10.

(2)

Eddig mi volt?

Apriori-algoval gyakori elemhalmazok gener´al´asa

a z´art gyakoriak ´es a hozz´ajuk tartoz´o t´aroltσ ´ert´ekekb˝ol az ¨osszes gyakori ´es ezek σ-j´anak meghat´aroz´asa

gyakoriak elemhalmazokb´ol a nagy megb´ızhat´os´ag´u szab´alyok el˝o´all´ıt´asa

(3)

Most mi lesz?

Apriori algo helyett m´as m´odszerek a gyakori elemhalmazok megtal´al´as´ara:

´

altal´anos strat´egi´ak az elemhalmazok h´al´oj´anak bej´ar´as´ara Eclat algo

(4)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 8

Frequent Itemset Generation

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Given d items, there are 2d possible candidate itemsets

(5)

Altal´ ´ anos strat´ egi´ ak a h´ al´ o bej´ ar´ as´ ara

az Apriori algo l´enyeg´eben egy sz´eless´egi bej´ar´ast val´os´ıt meg m´as strat´egi´ak:

elys´egi bej´ar´as

ekvivalencia-oszt´alyok szerinti bej´ar´as

mindegyik esetben alkalmazzuk az Apriori-elvet: ha egy EH nem gyakori, akkor egyetlen olyan halmaz sem gyakori, aki ˝ot tartalmazza vagy (ami ugyanez): ha egy elemhalmaz gyakori, akkor minden r´esze is az

(6)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 34

Alternative Methods for Frequent Itemset Generation

Traversal of Itemset Lattice

– Breadth-first vs Depth-first

(a) Breadth first (b) Depth first

(7)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 32

Alternative Methods for Frequent Itemset Generation

Traversal of Itemset Lattice

– General-to-specific vs Specific-to-general

Frequent itemset border null

{a1,a2,...,an} (a) General-to-specific

null

{a1,a2,...,an}

Frequent itemset

border

(b) Specific-to-general

..

..

..

..

Frequent itemset border

null

{a1,a2,...,an} (c) Bidirectional

..

..

(8)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 33

Alternative Methods for Frequent Itemset Generation

Traversal of Itemset Lattice

– Equivalent Classes

null

AB AC AD BC BD CD

A B C D

ABC ABD ACD BCD

ABCD

null

AB AC BC AD BD CD

A B C D

ABC ABD ACD BCD

ABCD

(a) Prefix tree (b) Suffix tree

(9)

ECLAT algo

m´as sziszt´ema

nem azt ´ırjuk fel, hogy melyik tranzakci´okban mik az elemek, hanem azt, hogy ´ırjuk fel az egyes elemekr˝ol, hogy melyik tranzakci´okban vannak benne

ezt vertik´alis fel´ır´asnak is nevezik

(10)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 43

ECLAT

For each item, store a list of transaction ids (tids)

TID Items 1 A,B,E 2 B,C,D 3 C,E 4 A,C,D 5 A,B,C,D 6 A,E 7 A,B 8 A,B,C 9 A,C,D 10 B

Horizontal Data Layout

A B C D E

1 1 2 2 1

4 2 3 4 3

5 5 4 5 6

6 7 8 9

7 8 9

8 10 9

Vertical Data Layout

TID-list

(11)

ECLAT algo

DFS-sel j´arjuk be az elemhalmazok h´al´oj´at a p´eld´aban legyen a gyakoris´agi-k¨usz¨ob 2 ekkor E gyakori

n´ezz¨uk meg E gyerekeit: DE,CE,BE,AE gyakoris´agai mik?

pl. DE gyakoris´aga D ´esE oszlop´anak metszet´enek magass´aga hasonl´oan kaphat´o a t¨obbi k´etelem˝u gyakoris´aga is

(12)

Tov´ abbl´ ep´ es DFS-sel

amelyik elemhalmazr´ol ´eppen kider¨ult, hogy gyakori, arr´ol tudom az

˝

ot tartalmaz´o tranzakci´ok halmaz´at

az egy elem˝u b˝ov´ıt´esek gyakoris´aga ezen oszlop ´es a b˝ov´ıt˝o elem oszlop´anak metszet´eb˝ol sz´amolhat´o

(13)

ECLAT ¨ osszefoglal´ as

nem gyakori egy-elem˝uek kidob´al´asa vertik´alis fel´ır´as elk´esz´ıt´ese

DFS a fenti m´odon, a h´al´ot reprezent´al´o gr´afban az ´ellist´aban a cs´ucsok gyakoris´ag szerint cs¨okken˝oen (ez gyors´ıtja a nem gyakoriak felismer´es´et)

b˝ov¨ul˝o elemhalmazok gyakoris´aga oszlopmetszet alapj´an

(14)

Lift-mutat´o

Milyen szab´ alyokat akarok?

eddig: supp ´es conf legyen magas ezekhez min sup ´es min conf k¨usz¨ob¨ok ezek be´all´ıt´asa neh´ez

ha magasak, akkor esetleg ´erdekes szab´alyok is kiesnek

ha alacsonyak, akkor t´ul sok szab´aly marad bent, neh´ez v´alogatni a enyleg j´okat

(15)

Lift-mutat´o

Erdekes szab´ ´ alyok keres´ ese

a sok szab´aly k¨oz¨ul, amire supp ´es conf el´eg nagy kiv´alogatni azokat, amik t´enyleg ´erdekesek:

aratlanok

hasznot hozhatnak

ezek (mechanikus algoval) megfoghatatlan fogalmak megold´asok:

valami ember v´alogassa ki az el˝osz˝urt szab´alyokb´ol az ´erdekeseket (ez nem j´arhat´o ´ut igaz´an)

valami szak´ert˝o el˝osz˝uri, hogy milyen szab´alyokat keres¨unk: pl. A´esB term´ekcsoport k¨oz¨ott van-e valami asszoci´aci´os ¨osszef¨ugg´es)

supp ´es conf-on k´ıv¨ul valami m´as, ami m´eri valahogyan az

´

erdekess´eget

(16)

Lift-mutat´o

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 58

Computing Interestingness Measure

Given a rule X Y, information needed to compute rule interestingness can be obtained from a contingency table

Y Y

X f11 f10 f1+

X f01 f00 fo+

f+1 f+0 |T|

Contingency tableforXY

f11: support of X and Y f10: support of X and Y f01: support of X and Y f00: support of X and Y

Used to define various measures

support, confidence, lift, Gini, J-measure, etc.

(17)

Lift-mutat´o

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 59

Drawback of Confidence

Coffee Coffee

Tea 15 5 20

Tea 75 5 80

90 10 100

Association Rule: TeaCoffee

Confidence= P(Coffee|Tea) =0.75 but P(Coffee) =0.9

Although confidence is high, rule is misleading

P(Coffee|Tea) = 0.9375

(18)

Lift-mutat´o

Lift-mutat´ o, motiv´ aci´ o

az el˝oz˝o f´olia mutatja, hogy a conf ´es supp nem el´eg lehet, hogy egy el´eg j´o t´amogatotts´ag´u, nagyon magas megb´ızhat´os´ag´u szab´aly teljesen butas´ag

pr´ob´aljuk valahogy kiz´arni az el˝oz˝o f´oli´an l´athat´o jelens´eget hasonl´ıtsuk ¨ossze azX →Y szab´aly conf-j´at a Y relat´ıv gyakoris´ag´aval (gyakoribb-eX mellett Y, mint ´altal´aban?)

(19)

Lift-mutat´o

Lift-mutat´ o

Lift(X →Y) = conf(X →Y) σ(Y)

n

, ahol n a tranzakci´ok sz´ama

ez uaz, mint σ(X ∪Y) σ(X) · n

σ(Y) = supp(X∪Y) supp(X)·supp(Y) ez igaz´ab´ol X ´esY el˝ofordul´as´anak f¨uggetlens´eg´et m´eri ha Lift(X →Y) = 1 az azt jelenti, hogy f¨uggetlenek

ha Lift(X →Y)>1 az azt jelenti, hogyY gyakoribbX mellett, mint

´

altal´aban, ez ´erdekel minket

(20)

Lift-mutat´o

Mindenf´ ele m´ er˝ osz´ amok

persze Lift sem mindenhat´o, sim´an lehet olyan szab´aly, amire supp, conf ´es Lift is j´o, de m´egis butas´ag

sok m´as m´er˝osz´am szab´alyok j´os´ag´ara (k¨ovetkez˝o f´olia, de csak illusztr´aci´o!)

´

altal´aban sup, conf ´es vmi Lift-szer˝u, f¨uggetlens´eget m´er˝o m´ert´ek

(21)

Lift-mutat´o

There are lots of measures proposed in the literature

Some measures are good for certain applications, but not for others

What criteria should we use to determine whether a measure is good or bad?

What about Apriori- style support based pruning? How does it affect these measures?

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

A vizsg¶alt h¶arom esetb}ol kett}oben (¶al- tal¶anos pozit¶³v v¶eletlen m¶atrixok ¶es v¶eletlen p¶aros Äosszehasonl¶³t¶as m¶atrixok) az algoritmus tÄobb

Nagy G´ abor probl´ emal´ at´ as´ anak ´ es ismereteinek m´ elys´ eg´ et mutatja, hogy kutat´ asaiban a csoportok egzakt faktoriz´ aci´ oj´ at felhaszn´ alva egy olyan Bol-

evmilli´ ardokat ´ atfog´ o ´ egi mechanikai szimul´ aci´ ok az ekliptikai ¨ ust¨ ok¨ os¨ ok fo- lyamatos ut´ anp´ otl´ as´ at mutatj´ ak a transzneptun-r´ egi´ ob´ ol.

A ”connected” transzverz´alisokban szerepl˝o transzl´aci´okkal val´o konjug´al´asok mu- tatj´ak, hogy a m´asodrend˝ u centrummal lefaktoriz´alva az eredeti loop nucleus´anak

– Másodszor számoljuk ki a többdimenziós tömb minden elemének értékét a célattributum értékeinek összegzésé- vel, vagy az összes olyan objektum összeszámolásával,

minden, a f´ aban szerepl˝ o egyelem˝ ure megn´ ezem, hogy mennyi az ilyen cs´ ucs-c´ımk´ ej˝ u cs´ ucsok sz´ aml´ al´ oinak ¨ osszege. ha ez nagyobb, mint a k¨ usz¨ ob,

adottak v´ as´ arl´ oi kosarak (tranzakci´ ok): miket v´ as´ aroltak egy¨ utt c´ el: olyan szab´ alyokat fel´ all´ıtani, hogy ha valaki vesz X -et, akkor es´ elyes, hogy vesz

ha Z maxim´ alis gyakori, akkor σ(Z ) geq k¨ usz¨ ob, a gyakoris´ ag miatt, de minden n´ ala b˝ ovebb halmaz m´ ar nem gyakori, vagyis az ilyenekre a σ a k¨ usz¨ ob al´ a,