• Nem Talált Eredményt

Feltételek a csomópontokban

In document Kinek szól ez a jegyzet? (Pldal 146-149)

Osztályozás és regresszió

4.5. Döntési szabályok

4.6.4. Feltételek a csomópontokban

Az ID3 algoritmus kiválasztja a minimális feltételes entrópiával rendelkez® att-ribútumot és annyi gyerekcsomópontot hoz létre, amennyi értéket felvesz az attribútum. Leállási feltételként szerepel, hogy egy ágat nem vágunk tovább, ha nincs több vizsgálható attribútum, azaz a fa maximális mélysége megegye-zik az attribútumok számával. Az ID3 algoritmus nem feltétlenül bináris fát állít el®.

Ha bináris fa el®állítása a cél vagy az intervallum típusú attribútum szosz-tikáltabb kezelése, akkor a magyarázóX attribútum típusától függ®en kétféle feltételt szokás létrehozni. Sorrend típus esetében X c, ahol c egy olyan érték, amelyet az X felvesz valamelyik tanítópont esetén. Intervallum típusú attribútumoknál ackét szomszédos tanítóérték átlaga. Kategória típus eseté-benX ⊆K, ahol K az X értékkészletének egy részhalmaza. Az els® esetben, azaz X c típusú feltételek esetén X felvett értékeinek számával lineárisan súlyozott feltételes entrópiát kell számítani:

H(Y|X) =P(X ≥c)H(Y|X ≥c) +P(X < c)H(Y|X < c),

amelynek számításakor a P(X c)-t és P(X < c) az X c és X < c esetek relatív gyakoriságával becsülhet®. A második esetben, X K feltételek ese-tében, az X által felvett értékek számával exponenciálisan súlyozott feltételes entrópiát számítunk, mivel egynelem¶ halmaznak 2n darab részhalmaza van.

Sok esetben akkor kapunk jó bináris döntési fát, ha egy gyökérb®l levélig vezet® úton egy attribútumot többször is vizsgálunk (különböz®

konstansok-kal illetve az attribútum értékkészletének különböz® részhalmazaival). A fa mélysége ekkor az attribútumok számánál jóval nagyobb is lehet.

4.6.5. Vágási függvények

Miért pont a kölcsönös információt használja az ID3 algoritmus? Milyen jó tulajdonsággal rendelkezik a kölcsönös információ? Léteznek-e további vágási függvények, amelyek rendelkeznek ezekkel a jó tulajdonságokkal? A válaszok kulcsa a Taylor-Silverman elvárások (impurity-based criteria) és a vágások jó-ságának fogalma.

4.6.1. Deníció Legyen X egy olyan diszkrét valószín¶ségi változó, amely k -értéket vehet fel. Az eloszlásfüggvény értékei legyenek P = (p1, p2, . . . , pk). A Φ vágási függvény a p1, p2, . . . , pk értékekhez rendel egy valós számot, amint látni fogjuk, Φ segítségével a vágás jóságát jellemezhetjük számszer¶en. A Φ : [0,1]k 7−→ R vágási függvénnyel szemben támasztott Taylor-Silverman el-várások a k®vetkez®k:

1. Φ(P)0

2. Φ(P) akkor veszi fel a minimumát, ha ∃j :pj = 1 3. Φ(P) akkor veszi fel a maximumát, ha ∀j :pj = 1/k

4. Φ(P) a P komponenseire nézve szimmetrikus, tehát a p1, p2, . . . , pk érté-kek tetsz®leges permutációjára ugyanazt az értéket adja.

5. Φ(P) dierenciálható az értelmezési tartományában mindenhol

Adott T tanítóminta esetén a vágási függvény számításakor a pj való-szín¶séget nem ismerjük, így a relatív gyakorisággal közelítjük azaz, ha aj-edik osztályba tartozó tanítópontok halmazát Tj-vel jelöljük, akkor pj = |T|T |j|. A valószín¶ségvektor empirikus megfelel®jét P(T)-vel jelöljük:

P(T) = (|T1|

|T | ,|T2|

|T | , . . . ,|T|

|T |).

4.6.2. Deníció Az olyan V vágás jósága, amely során a T tanítópontokat T1,T2, . . . ,T diszjunkt tanítóhalmazba osztjuk szét, megegyezik a

∆Φ(V,T) = Φ(P(T))

i=1

Ti

T ·Φ(P(Ti)) értékkel.

Minél nagyobb ∆Φ(V,T), annál jobb a vágás. Adott Φ vágási függvény és tanítóponthalmaz esetén célunk megtalálni azt a vágást, amely a ∆Φ(V,T) maximális értékét eredményezi. Mivel a Φ(P(T)) adott tanítóhalmaz esetén rögzített, ezért elég a∑

i=1 Ti

T ·Φ(P(Ti))érték minimumát megtalálni.

MivelΦa vágási függvény csak az osztályok relatív gyakoriságát veszi gye-lembe, a vágás jósága, ∆Φ(V,T), nulla lesz abban az esetben, ha az osztályok eloszlása a gyerekekben megegyezik a szül®ben található osztályeloszlással. Ez megfelel elvárásainknak, hiszen nem nyerünk semmit az olyan vágással, amely során az egyes osztályba tartozó pontok relatív száma egymáshoz viszonyítva mit sem változik.

Most már látható Taylor és Silverman miért fogalmazta meg az elvárásait.

Tekintsük a második és a harmadik elvárást. Azt szeretnénk, hogy a gyerme-kekben található tanítóminták minél homogénebbek legyenek. Ideális esetben olyan gyerekek jönnek létre, amelyekhez tartozó tanítópontok egy osztályba tartoznak. Ehhez az osztályhoz tartozó relatív gyakoriság 1, a többi osztályé 0 és a Φvágási függvény a minimumát veszi fel. A legrosszabb esetben az összes osztály relatív gyakorisága megegyezik, azaz a vágás során olyan gyerek jött létre, amelyben az osztályattribútum teljesen megjósolhatatlan. A harmadik elvárás szerint ezt az esetet büntetni kell, pontosabban: a Φ vágási függvény ekkor vegye fel a maxmimumát. Értelemszer¶en a minimum és a maximum között a vágási függvény normális és kezelhet® legyen, azaz legyen deriválható legalábbis minden pontban.

Nem meglep®, hogy az entrópia teljesíti az öt feltételt.

4.6.3. Lemma Az entrópia, mint vágási függvény, megfelel a Taylor-Silverman elvárásoknak [Quinlan, 1987].

Különböz® kutatók különböz® vágási függvényeket vezettek be. Például a CART algoritmusban a Gini indexet [Breiman és tsa., 1984, Gelfand és tsa., 1991]

használták:

Gini(P) = 1

k j=1

p2j.

A DKM vágási függvényt [Dietterich és tsa., 1996][Kearns és Mansour, 1996]

bináris osztályozás esetén ajánlják:

DKM(P) = 2·√ p1p2

4.6.4. Lemma A Gini és a DKM vágási függvények megfelelnek a Taylor-Silverman elvárásoknak.

Elméletileg bizonyították [Kearns és Mansour, 1996], hogy a DKM vágási függvény ugyanakkora hiba mellett kisebb döntési fákat állít el®, mintha ent-rópia vagy Gini index alapján választanánk ki a vágást.

Itt szeretnénk visszautalni az ID3 algoritmus ismertetése végén leírtakra.

Az entrópia alapú vágási függvények azokat a vágásokat részesítik el®nyben, amelyek sokfelé vágnak, azaz sok gyereket hoznak létre. Általában is igaz, hogy ha a vágás jóságát a fenti módon deniáljuk és a vágási függvény kielégíti a Taylor-Silverman elvárásokat, akkor olyan vágások jönnek létre, amelyek-hez sok gyerek tartozik. Természetesen ez a probléma nem jelentkezik bináris döntési fák esetében. Ott minden bels® csúcsnak pontosan két gyereke van.

A megoldást a vágás jóságának normalizálása jelenti. Például az infor-mációnyereség helyett, amint korábban említettük, a nyereségarányt (gain ra-tio) célszer¶ használni, amelyet megkapunk, ha az információnyereséget el-osztjuk az entrópiával. Általános esetben is hasonlót teszünk, De Mántaras szerint [De Mántaras, 1991] a vágás jóságának normáját a következ®képpen célszer¶ képezni: j-edik gyermek i-dik osztályba tartozó tanítópontjainak halmazát jelöli.

In document Kinek szól ez a jegyzet? (Pldal 146-149)