• Nem Talált Eredményt

2012.´aprilis5. Nagym´eret˝uadathalmazokkezel´ese(BMEVISZM144)ReinhardtG´abor Asszoci´aci´osszab´alyok

N/A
N/A
Protected

Academic year: 2022

Ossza meg "2012.´aprilis5. Nagym´eret˝uadathalmazokkezel´ese(BMEVISZM144)ReinhardtG´abor Asszoci´aci´osszab´alyok"

Copied!
32
0
0

Teljes szövegt

(1)

Asszoci´ aci´ os szab´ alyok

Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

Reinhardt G´abor

Budapesti M˝uszaki- ´es Gazdas´agtudom´anyi Egyetem

2012. ´aprilis 5.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(2)

Tartalom

1 Gyakori elemhalmazok

2 Asszoci´aci´os szab´alyok heurisztikusan

3 Asszoci´aci´os szab´alyok form´alisan

4 Megjegyz´esek

5 Erdekess´´ egi mutat´ok

6 Altal´´ anos´ıt´as

7 Osszefoglal´¨ as

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(3)

Gyakori elemhalmazok ism´ etl´ es

A feladat

Gyakran egy¨utt v´as´arolt term´ekek meghat´aroz´asa Tanultunk r´a hat´ekony algoritmusokat

Nagy profit lehet˝os´eg´et rejti mag´aban

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(4)

Gyakori elemhalmazok defin´ıci´ ok 1.

Term´ek

Egy bolt k¨ul¨onb¨oz˝o term´ekei Pl. s¨or, pelenka

Nem defini´aljuk, hogy pontosan mi a felbont´as (k¨ul¨onb¨oz˝o m´ark´aj´u s¨or¨ok egy term´eknek sz´am´ıtanak-e)

Kos´ar

Ezek jelentik a v´as´arl´asokat

Hogy egy term´ekb˝ol milyen mennyis´eget vesz¨unk, az nem sz´am´ıt A term´ekek sorrendje sem sz´am´ıt

A kosarak sorrendje sem sz´am´ıt

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(5)

Gyakori elemhalmazok defin´ıci´ ok 2.

Elemhalmaz

Elemhalmaznak nevezz¨uk term´ekek egy csoportj´at Ezeket a k´es˝obbiekbenI-vel fogom jel¨olni

Gyakori elemhalmaz

Azok az elemhalmazok, amelyek sok kos´arban el˝ofordulnak Sok: t¨obb, mint min supp

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(6)

Asszoci´ aci´ os szab´ aly

Jel¨ol´es I1ÕI2

I1,I2elemhalmazok

Jelent´es

Ha egy kos´ar tartalmazzaI1-et, akkor val´osz´ın˝uleg tartalmazzaI2-t is Hogy mennyire val´osz´ın˝uleg, azt a szab´aly er˝oss´ege mondja meg

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(7)

Mire j´ o egy asszoci´ aci´ os szab´ aly?

Extra profit

LegyenI1ÕI2egy asszoc. szab´aly

Ori´´ asi h´ırver´es k¨ozepette cs¨okkents¨uk azI1 term´ek ´ar´at (-15%) Csendben emelj¨uk azI2-´et (+30%)

Mivel az elad´asok egy¨utt mozognak, a profit ¨osszess´eg´eben n˝oni fog (Az is el˝ofordul, hogy az ¨uzletek el˝o is ´ırj´ak az egy¨utt v´as´arl´ast)

Term´ekt´erk´ep kialak´ıt´asa

J´o, ha a v´as´arl´o elhalad az ˝ot ´erdekl˝o term´ekek mellett

Ha ismerj¨uk az asszoci´aci´os szab´alyokat, akkor ezt tudjuk seg´ıteni (Persze ezt is az extra profit ´erdek´eben tessz¨uk)

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(8)

Mire j´ o egy asszoci´ aci´ os szab´ aly?

1. ´abra.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(9)

Mennyire j´ o egy asszoci´ aci´ os szab´ aly?

Bizonyoss´ag

I1ÕI2egy asszoc. szab´aly

A bizonyoss´ag megmondja, hogy ha egy kos´arban benne van azI1

term´ekhalmaz, akkor mekkora val´osz´ın˝us´eggel van benne azI2

term´ekhalmaz is

Min´el nagyobb a bizonyoss´ag, ann´al ´ert´ekesebb a szab´aly (Ann´al nagyobb profitot rem´elhet¨unk t˝ole)

T´amogatotts´ag

Azoknak a kosaraknak a sz´ama, amik tartalmazz´akI1 UI2-t Igaz´an csak a nagy t´amogatotts´ag´u szab´alyok ´erdekesek

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(10)

Defin´ıci´ o 1.

Defin´ıci´o (asszoci´aci´os szab´aly)

Az R:I1c,s→I2kifejez´estc bizonyoss´ag´u,s t´amogatotts´ag´u

asszoci´aci´os szab´alynak nevezz¨uk, haI1,I2diszjunkt elemhalmazok,

´ es

c= supp(Isupp(I1∪I2)

1)

s=supp(I1∪I2)

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(11)

Defin´ıci´ o 2.

Defin´ıci´o (´erv´enyes asszoci´aci´os szab´aly)

T kosarak sorozat´aban, min supp t´amogatotts´agi ´es min conf bizonyoss´agi k¨usz¨ob mellett azI1 ÕI2 asszoci´aci´os szab´aly ´erv´enyes, amennyibenI1∪I2gyakori elemhalmaz, ´esc≥min conf

Megfigyel´es: az asszoci´aci´os szab´aly defin´ıci´oj´aban nem k¨ovetelt¨unk meg t´amogatotts´agi ´es bizonyoss´agi k¨usz¨ob¨ot.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(12)

El˝ o´ all´ıt´ as gyakori elemhalmazokb´ ol 1.

Gyakori elemhalmazokat ki tudjuk nyerni Egy kor´abbi el˝oad´as pont ezzel foglalkozott

Sz´etv´ag´as

Minden gyakori elemhalmazt bontsunk fel k´et diszjunk nem ¨ures r´eszre (minden lehets´eges m´odon), majd ellen˝orizz¨uk, hogy teljes¨ul-e a min conf felt´etel

Ezen a ponton m´ar sejtj¨uk, hogy asszoci´aci´os szab´alyb´ol rengeteg lehet

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(13)

El˝ o´ all´ıt´ as gyakori elemhalmazokb´ ol 2.

´Eszrev´etel

AmennyibenI1,I gyakori elemhalmazok a T bemeneti sorozatban, ´es I1⊂I, illetveI1ÕI−I1nem ´erv´enyes asszoci´aci´os szab´aly, akkorI1’ ÕI−I1’ sem ´erv´enyes semmilyenI1’⊂I1-re.

K¨ovetkezm´eny

Ezt felhaszn´alva nem kell t´ul sok felesleges sz´etv´ag´ast v´egezni (M´eg ´ıgy is sokat kell sz´amolni)

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(14)

P´ elda

T={A,B,C,D,E,F}

Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F}

Min supp=2 Min conf=0.5

Asszoc. sz. T´amogatotts´ag Bizonyoss´ag ´Erv´enyes AÕB

BÕA CÕEF CDÕEF

1. t´abl´azat.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(15)

P´ elda

T={A,B,C,D,E,F}

Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F}

Min supp=2 Min conf=0.5

Asszoc. sz. T´amogatotts´ag Bizonyoss´ag ´Erv´enyes

AÕB 2 0.4 nem

BÕA CÕEF CDÕEF

2. t´abl´azat.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(16)

P´ elda

T={A,B,C,D,E,F}

Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F}

Min supp=2 Min conf=0.5

Asszoc. sz. T´amogatotts´ag Bizonyoss´ag ´Erv´enyes

AÕB 2 0.4 nem

BÕA 2 1 igen

CÕEF CDÕEF

3. t´abl´azat.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(17)

P´ elda

T={A,B,C,D,E,F}

Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F}

Min supp=2 Min conf=0.5

Asszoc. sz. T´amogatotts´ag Bizonyoss´ag ´Erv´enyes

AÕB 2 0.4 nem

BÕA 2 1 igen

CÕEF 3 0.75 igen

CDÕEF

4. t´abl´azat.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(18)

P´ elda

T={A,B,C,D,E,F}

Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F}

Min supp=2 Min conf=0.5

Asszoc. sz. T´amogatotts´ag Bizonyoss´ag ´Erv´enyes

AÕB 2 0.4 nem

BÕA 2 1 igen

CÕEF 3 0.75 igen

CDÕEF 1 1 nem

5. t´abl´azat.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(19)

Maxim´ alis k¨ ovetkezm´ eny˝ u asszoc. szab´ aly

Levezet´esi szab´alyok

Tegy¨uk fel, hogy I1ÕI2´erv´enyes I1ÕI2’ is ´erv´enyes mindenI2’⊂I2-re

I1∪ {i}ÕI2− {i} is ´erv´enyes minden i∈I2-re

K¨ovetkezm´eny

A maxim´alis k¨ovetkezm´enyr´esszel rendelkez˝o szab´alyokb´ol az ¨osszes szab´aly levezethet˝o

A levezetett szab´alyok param´etereire viszont nem tudunk k¨ovetkeztetni

Pedig ez nagyon fontos lenne (k´es˝obb l´atni fogjuk, mi´ert)

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(20)

Asszoc. szab´ alyok ´ es oszt´ alyoz´ as 1.

Mi a hasonl´os´ag?

Mindkett˝oben attrib´utumok k¨oz¨otti ¨osszef¨ugg´eseket keres¨unk

Asszoci´aci´os szab´alyok

Tetsz˝oleges k´et attrib´utum k¨oz¨ott Bin´aris attrib´utumok

Csak akkor ´all´ıtunk valamit, ha a felt´etelr´esz 1 F˝o c´el a gyors algoritmus

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(21)

Asszoc. szab´ alyok ´ es oszt´ alyoz´ as 2.

Oszt´alyoz´as

Egy kijel¨olt attrib´utumot hogyan hat´aroz meg a t¨obbi Nincs megk¨ot´es az attrib´utumok t´ıpus´ara

Mindig mondunk valamit F˝o c´el a pontoss´ag

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(22)

Korrel´ aci´ o 6= implik´ aci´ o 1.

Ha AÕB egy ´erv´enyes asszoci´aci´os szab´aly I. A ⇒B

II. B⇒A

III. C⇒A, C⇒B //vagy bonyolultabb IV. v´eletlen

V. egym´ast is okozhatj´ak (k¨olcs¨on¨osen meger˝os´ıt˝o m´odon)

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(23)

Korrel´ aci´ o 6= implik´ aci´ o 2.

2. ´abra.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(24)

Gondok az asszoci´ aci´ os szab´ alyokkal 1.

Rengeteg van

Az ¨osszes gyakori elemhalmazt (m´ar ez is nagyon sok) t¨obbf´elek´epp kett´ev´agtuk

Magasra ´all´ıtott k¨usz¨obbel kevesebb van, de ´ıgy tipikusan sok

´

erdekeset is elvesz´ıt¨unk

F´elrevezet˝oek lehetnek

Az emberek egyharmada hot-dogot vesz, egyharmada hamburgert, a t¨obbi mindkett˝ot

Azok ´es csak azok vesznek majon´ezt, akik hamburgert esznek A hot-dog Õmajon´ez szab´aly ´erv´enyes lesz!

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(25)

Gondok az asszoci´ aci´ os szab´ alyokkal 2.

A legt¨obb szab´aly nem ´erdekes

Valami ´erdekesnek a speci´alis esetei (apr´o m´odos´ıt´asok ritk´an vannak hat´assal az ´erdekess´egre)

T¨obbet ´er egy ´altal´anos szab´aly, mint sok speci´alis

J´o lenne a szab´alyokat ´erdekess´eg¨uk alapj´an sorba rendezni

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(26)

F¨ uggetlens´ egi mutat´ ok

Szab´alyok f¨uggetlens´ege

Megfigyel´es: egy szab´aly nem ´erdekes, ha a felt´etel ´es k¨ovetkezm´enyr´eszek f¨uggetlenek egym´ast´ol

Ennek vizsg´alata sok probl´em´at megold A b¨uf´es p´eld´at is ’lebuktatja’

F¨uggetlens´egi mutat´ok Lift ´ert´ek

Empirikus kovariancia, empirikus korrel´aci´o χ2statisztika

Binomi´alis pr´oba ...

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(27)

N´ eh´ any k´ eplet

3. ´abra.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(28)

Szab´ alyok rangsora

H´arom f˝o attrib´utum alapj´an T´amogatotts´ag

Bizonyoss´ag F¨uggetlens´eg

De hogyan?

K¨ul¨on-k¨ul¨on egyik sem el´eg Valamilyen f¨uggv´eny¨uket kell n´ezni Itt kezd˝odik a m˝uv´eszet

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(29)

Altal´ ´ anoss´ ag, specialit´ as

Az ´erdekes asszoci´aci´os szab´alyok k¨oz¨ott is lehet a t¨obbs´eg haszontalan Erdekes, mint ´´ erv´enyes ´es a rangsor alapj´an el˝okel˝o helyen lev˝o Pl. sok a nagy t´amogatotts´ag´u, m´as term´ekekt˝ol f¨uggetlen term´ek Hac db ilyen van (´esnval´oban ´erdekes szab´aly), akkorn∗2c

´

erdekeset fogunk tal´alni Az ´altal´anos szab´alyok jobbak

Egy lehets´eges megold´as

A felt´etelr´esz minden elem´ere megn´ezz¨uk, hogy f¨uggetlen-e a t¨obbit˝ol

Ha igen, akkor kidobjuk

Az eg´esz szab´alyt kidobhatjuk, mert az ´altal´anosabb szab´alyt m´ar biztosan megtal´altuk

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(30)

Hierarchikus asszoci´ aci´ os szab´ alyok

Altal´´ anos´ıt´as

A term´ekeket hierarchi´aba rendezhetj¨uk

´Igy t´ur´os palacsintaÕ¨ud´ıt˝o jelleg˝u szab´alyokat kaphatunk Ez az ´altal´anos´ıt´as teljesen ´esszer˝u ´es hasznos

Sajnos a sz´am´ıt´asig´enyt tov´abb n¨oveli

4. ´abra.

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(31)

Osszefoglal´ ¨ as

Mit ´erdemes megjegyezni?

Az asszoci´aci´os szab´alyok hasznosak Rengetegen vannak

Neh´ez megtal´alni k¨ozt¨uk az ´erdekeset

Ha tal´altunk egyet, akkor is fenntart´asokkal kell kezelni

El´eg hasznosak ahhoz, hogy a neh´ezs´egek ellen´ere is ´erdemes legyen vel¨uk foglalkozni

K¨osz¨on¨om a figyelmet!

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

(32)

Felhaszn´ alt irodalom

[1] Bodon Ferenc. Adatb´any´aszati algoritmusok. BME, Feb. 2010 [2] http://xkcd.com/552/

Reinhardt G´abor Nagym´eret˝u adathalmazok kezel´ese (BMEVISZM144)

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Nagy G´ abor probl´ emal´ at´ as´ anak ´ es ismereteinek m´ elys´ eg´ et mutatja, hogy kutat´ asaiban a csoportok egzakt faktoriz´ aci´ oj´ at felhaszn´ alva egy olyan Bol-

For an arbitrary finite meet-semilattice hS; ∧i, the quotient meet- semilattice hS; ∧i/τ is a tree.... If hS; ∧i is a quasi-tree semilattice, then the unique nonsingleton block of τ

Val´ osz´ın˝ us´ egsz´ am´ıt´ asi alapok Norm´ alis eloszl´ as.. Centr´ alis hat´ areloszl´

I Új jelöltek létrehozása közös ®s¶ jelöltekb®l Nem gyakori jelöltek törlése gyorsítási lehet®ség:. I Jelöltek

Az ´ uj aktiv´aci´ os energia seg´ıts´eg´evel megmutattam [T1.2], hogy a fel¨ uleti ´es a fel¨ ulet alatti ugr´ asok gyakoris´ag´ anak az ar´ anya nagym´ert´ekben hat´

A legt¨ obb l´ etez˝ o id˝ osor reprezent´ alhat´ o a ”leger˝

T¨ or¨ olj¨ uk a tranzakci´ o azon elemeit, melyek nem elemei egyetlen olyan jel¨ oltnek sem, amit a tranzakci´ o tartalmaz. Ugyanis, ezek az elemek nagyobb m´ eret˝ u

altal´ anos strat´ egi´ ak az elemhalmazok h´ al´ oj´ anak bej´ ar´ as´ ara Eclat algo... © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004