• Nem Talált Eredményt

Asszociációs szabályok

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Asszociációs szabályok "

Copied!
21
0
0

Teljes szövegt

(1)

Asszociációs szabályok

Nikházy László

Nagy adathalmazok kezelése

2010. március 10.

(2)

Mi az értelme?

• A → ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában tartalmaznak sört is.

• Ha ez igaz, akkor a szupermarket extra profithoz juthat az alábbi módon:

Óriási hírverés közepette csökkentsük a pelenka árát (mondjuk 15%-kal), miközben diszkréten megemeljük a sör árát (mondjuk 30%-kal), úgy hogy a pelenka árcsökkentéséből adódó profitcsökkenés kisebb legyen a sör áremeléséből adódó profitnövekedésnél.

(3)

Definíció

• Asszociációs szabály:

: , , ahol = ∅ , és:

• bizonyosság:

= ()

() = ()

• támogatottság:

= ()

• Érvényes asszociációs szabály:

≥ !"_ , ≥ !"_

(4)

Érvényes asszociációs szabályok meghatározása

• Minden gyakori termékhalmazt bontsunk fel két diszjunkt, nem üres részre: =

• Ellenőrizzük, hogy teljesül-e:

(()) ≥ !"_

• Ha igen, akkor érvényes asszociációs szabály

• Észrevétel:

ha → \ nem érvényes, és %-nek, akkor ′ → \′ sem érvényes

(5)

Maximális következményű asszociációs szabály

• Ha érvényes asszociációs szabály, akkor - % is érvényes, minden %-re

- ∪ (") → \(") is érvényes minden " ∈ -re

• Tehát minden asszociációs szabály „levezethető” a maximális következményrésszel rendelkező asszociációs szabályokból

(6)

Probléma: büfé

• Emberek 1/3-a vesz hamburgert, 1/3-a hot-dogot, 1/3-a mindkettőt.

• A kosarak 66%-a tartalmaz hot-dogot, ezek 50%-a majonézt is.

• Így a hot-dog → majonéz érvényes lehet, ezért a büfés csökkenti a hot- dog árát és emeli a majonézét.

• A várakozással ellentétben azonban a profit csökken, mert a hamburger fogyasztók is inkább hot-dogot vesznek.

(7)

A probléma forrása

• A bizonyosság a következményrész feltételes valószínűségét próbálja becsülni:

≈ (|) = (, ) ()

• Ha (|) = (), vagyis ha és függetlenek, akkor a szabály nem hordoz hasznos információt (de ezt a bizonyosság és a támogatottság nem feltétlenül mutatja)

• Ötlet: vizsgáljuk a -(./|.0)

-(./) hányadost!

Valószínűségek helyett persze relatív gyakoriságokkal → lift érték

(8)

Lift érték

• Definíció:

"1() = 2() 2() ∙ 2()

• Például, ha lift(sör→pelenka)=2, az azt jelenti, hogy a sört vásárlók

körében dupla annyi a pelenkát vásárlók aránya, mint amúgy általában

(9)

Empirikus kovariancia és korreláció

• empirikus kovariancia:

4() = 2() − 2() ∙ 2() emlékeztető: X, Y valószínűségi változók

4(6, 7) = 89(6 − 86)(7 − 87): = 896 ∙ 7: − 86 ∙ 87

• empirikus korreláció:

() = 4()

;.0;./ = 2() − 2() ∙ 2()

<8(1 − 8) ∙ <8(1 − 8)

= 2() − 2() ∙ 2() 2() ∙ 2(>) ∙ 2( ) ∙ 2(>) (valószínűségi változókra: (6, 7) = ?@(A,B)C

DCE )

(10)

Kontingenciatábla

X nem X Σ

Y k1,1 k1,2 k1.

nem Y k2,1 k2,2 k2.

Σ k.1 k.2 n

• rendelkezésre álló értékek

nem Σ ( ) () nem

Σ () n

A hiányzó értékek számíthatók.

(11)

A χ 2 -statisztika

• A FG = ∑ ∑ IJKLM

NK.N.L P Q/

NK.N.L P

RS

TS próbastatisztika eloszlása aszimptotikusan χ2 eloszlású lesz, ha X és Y függetlenek.

• (Valszám: Legyen UV olyan, hogy W(X < UV) = 1 − Z, ekkor ha FG < UV , akkor 1 − Z szignifikanciával függetlenek.)

• Minél kisebb a próbastatisztika, annál inkább függetlenek az események.

• 2x2-es esetben FG = ∙

(12)

Binomiális próba

• Tfh. és függetlenek, W(, ) = W() ∙ W(). Legyen [R = RR

• [ = ∑GRS [R binomiális eloszlású val. vált. n és W(, ) paraméterekkel, W(, ) ≈ 2() ∙ 2()

• megfigyelések: (], … , ]G) ellentmondanak-e ennek?

• legyen olyan a próba, hogy ha valójában függetlenek, akkor ε valószínűséggel mondjuk azt, hogy nem függetlenek:

9, :: legszűkebb intervallum, melyre ∑ W([ = ) ≤ 1 − ZaJSb

ha ∑GRS ]R = ] ∈ 9, :, akkor a hipotézisünk az, hogy függetlenek, egyébként az összefüggőség mellett döntünk

(13)

Fisher-féle egzakt próba

• Adott , (), (). Ha egyenletes eloszlás szerint vannak

szétszórva és termékek a kosarakban, akkor mennyi az esélye annak, hogy az -et tartalmazó kosarakból X darabban lesz ?

Wd6, , (), ()e = f()

6 g I − () () − 6Q

f

()g

• p-érték: az adott esetnél extrémebb esetek valószínűségének összege h() = i W(6%, , (), ()

Aj:k(Aj,G,(.0),(./))lk((.0∪./),G,(.0),(./))

)

• minél kisebb a p-érték, annál kisebb valószínűséggel függetlenek

(14)

Asszociációs szabályok rangsora

• A gyakorlatban sok érvényes szabályt találunk -> rangsorolni kellene

• Három paraméter: támogatottság, bizonyosság, függetlenség - pl. súlyok rendelése a paraméterekhez

mi szerint?

marketinges: támogatottság statisztikus: függetlenség

- függetlenségre sok paraméter – egymáshoz hogy viszonyulnak?

empirikus korreláció, χ2-statisztika, p-érték: ugyanaz a sorrend empirikus kovariancia, lift érték: más sorrendeket adhatnak

(15)

Általánosság, specialitás

• Érdekes szabály mögé elbújva sok érdektelen szabály átmegy a szűrésen, és érdekesnek bizonyul.

• Legyen érvényes és érdekes, megy olyan gyakori termékhalmaz, amely független -től és -től, és olyan nagy a támogatottsága, hogy (m) ≥ !"_ is fennáll

• Ekkor könnyű belátni, hogy m is érvényes és érdekes asszociációs szabály lesz.

• A probléma kiküszöbölése: hagyjuk el a feltételrészből azt a részt, ami független a többi feltételtől és a következménytől is.

(16)

Hierarchikus asszociációs szabályok

• Előfordulhat, hogy termékkategóriák között vannak összefüggések Pl.: sört vásárlók 70%-a vesz valami chips-félét is

• Ismerni kell az elemek taxonómiáját - gyökeres, címkézett fa (fák)

(17)

Hierarchikus asszociációs szabályok

• Egy kosár tartalmazza az % elemhalmazt, ha

∀" ∈ % − " ∈ 4op ∃"% ∈ , ℎop " ∈ ő("%) .

• Hierarchikus asszociációs szabály (def.):

Legyen T a taxonómiában található termékek és kategóriák halmaza.

, hierarchikus asszociációs szabály, ha , ⊆ F, = ∅ , továbbá egyetlen " ∈ sem őse egyetlen "%-nek. és definíciója ugyanaz, mint a sima asszociációs szabálynál.

(18)

Hierarchikus asszoc. szabályok kinyerése

• Amikor a gyakori elemhalmazokat nyerjük ki (pl. apriori algoritmussal), akkor képzeletben töltsük fel a kosarakat az elemek ősével, amikor

vizsgáljuk.

• Más megközelítés:

kezdetben a gyökerekben található kategóriákkal határozzuk meg a gyakori elemhalmazokat, majd a következő lépésben vesszük a

gyerekeiket stb.

(19)

Hierarchikus asszoc. szabályok érdekessége

• Lesznek semmitmondó szabályok:

Pl.: élelmiszerbolt, háromféle (zsírszegény, félzsíros, normál) tej, az emberek egynegyede félzsíros tejet iszik, és:

1u vw%,y.v%,zzzzzzz ]{ℎp

]í]oép 1u vw%,.%,zzzzzzz ]{ℎp

• egy szabály nem érdekes, ha annak bizonyossága és támogatottsága nem tér el a nála általánosabb szabály paraméterei alapján becsült értékektől

(20)

Kategória asszociációs szabályok

• Ha az adatbázisban nem csak bináris attribútumok szerepelhetnek

• Minden olyan A attribútumot, amely k különböző értéket vehet fel (k > 2), helyettesítsünk k darab bináris attribútummal.

• Az így kapott bináris táblán már futtathatjuk a kedvenc asszociációs szabályokat kinyerő algoritmusunkat

(21)

A korreláció nem jelent implikációt

• Az asszociációs szabályok három paramétere közül egyik sem jelent okozatiságot

• Ha A és B között korreláció van, akkor lehet, hogy A okozza B-t, de lehet, hogy másféle kapcsolat áll fenn köztük. Az is lehet, hogy

- B okozza A-t

- egy harmadik C jelenség okozza A-t és B-t is pl.: „cipőben alvás fejfájást okoz”

- A és B egymást is okozhatják kölcsönösen megerősítő módon

- a korrelációt a véletlenek különös együttállása okozza (elsőfajú hiba)

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

▫A (közlekedés és az ipari termelés) üvegházhatást okozó gázainak kibocsátását 20%-kal csökkenteni kell az 1990-es szinthez képest (vagy akár 30%-kal, ha adottak az

¥ Gondoljuk meg a következőt: ha egy függvény egyetlen pont kivételével min- denütt értelmezett, és „közel” kerülünk ehhez az említett ponthoz, akkor tudunk-e, és ha

Vagy azt mondjuk csak, hogy az egyiket jobban kedveljük a másiknál – mint ahogy valaki inkább szereti a sört, mint az almabort –, vagy pedig azt mondjuk, hogy akármit is gondol

Holl András ennek szellemében amellett érvelt, hogy az ORCID sok- kal jobb módja az információ menedzselésének, mint mondjuk a Google Scolar, mert sokkal

kal jobb volt az előző évi átlagnál, nagy baj azonban az, hogy a dohány termésátlaga 1370—kal, a repce termésátlaga 12 5/ —kal a kendermag termésátlaga 11 1 % -kal, a

Kőszémermelésünk július hóban mindössze 2'3%—kal emelkedett, a mult év azonos hónapjához képest is csak 10'3%-os többletet mutat; az év első hét hónapjában pedig

A parasztság jövedelme, összehasonlító árakon és egy mezőgazdasági dolgozóra számítva, 1949—ben 14%—kal volt magasabb, mint 1948—ban és 1940—hez viszonyítva

1952-ben a mezőgazdasági termékek exportja 15%-kal csökkent l951-hez képest, 1953 első félévében pedig 30%-kal kisebb volt, mint 1952 első félévében. Az Egyesült