• Nem Talált Eredményt

Feltételek a csomópontokban

Osztályozás és regresszió

4.5. Döntési szabályok

4.6.4. Feltételek a csomópontokban

Az ID3 algoritmus kiválasztja a minimális feltételes entrópiával rendelkező att-ribútumot és annyi gyerekcsomópontot hoz létre, amennyi értéket felvesz az attribútum. Leállási feltételként szerepel, hogy egy ágat nem vágunk tovább, ha nincs több vizsgálható attribútum, azaz a fa maximális mélysége megegye-zik az attribútumok számával. Az ID3 algoritmus nem feltétlenül bináris fát állít elő.

Ha bináris fa előállítása a cél vagy az intervallum típusú attribútum szofisz-tikáltabb kezelése, akkor a magyarázóX attribútum típusától függően kétféle feltételt szokás létrehozni. Sorrend típus esetében X c, ahol c egy olyan érték, amelyet az X felvesz valamelyik tanítópont esetén. Intervallum típusú attribútumoknál ackét szomszédos tanítóérték átlaga. Kategória típus eseté-benX ⊆K, ahol K az X értékkészletének egy részhalmaza. Az első esetben, azaz X c típusú feltételek esetén X felvett értékeinek számával lineárisan súlyozott feltételes entrópiát kell számítani:

H(Y|X) =P(X ≥c)H(Y|X ≥c) +P(X < c)H(Y|X < c),

amelynek számításakor a P(X c)-t és P(X < c) az X c és X < c esetek relatív gyakoriságával becsülhető. A második esetben, X K feltételek

ese-tében, az X által felvett értékek számával exponenciálisan súlyozott feltételes entrópiát számítunk, mivel egynelemű halmaznak 2n darab részhalmaza van.

Sok esetben akkor kapunk jó bináris döntési fát, ha egy gyökérből levélig vezető úton egy attribútumot többször is vizsgálunk (különböző konstansok-kal illetve az attribútum értékkészletének különböző részhalmazaival). A fa mélysége ekkor az attribútumok számánál jóval nagyobb is lehet.

4.6.5. Vágási függvények

Miért pont a kölcsönös információt használja az ID3 algoritmus? Milyen jó tulajdonsággal rendelkezik a kölcsönös információ? Léteznek-e további vágási függvények, amelyek rendelkeznek ezekkel a jó tulajdonságokkal? A válaszok kulcsa aTaylor-Silverman elvárások (impurity-based criteria) és a vágások jó-ságának fogalma.

4.6.1. Definíció Legyen X egy olyan diszkrét valószínűségi változó, amely k-értéket vehet fel. Az eloszlásfüggvény értékei legyenek P = (p1, p2, . . . , pk). A Φ vágási függvény a p1, p2, . . . , pk értékekhez rendel egy valós számot, amint látni fogjuk, Φ segítségével a vágás jóságát jellemezhetjük számszerűen. A Φ : [0,1]k 7−→ R vágási függvénnyel szemben támasztott Taylor-Silverman el-várások a kővetkezők:

1. Φ(P)0

2. Φ(P) akkor veszi fel a minimumát, ha ∃j :pj = 1 3. Φ(P) akkor veszi fel a maximumát, ha ∀j :pj = 1/k

4. Φ(P) a P komponenseire nézve szimmetrikus, tehát a p1, p2, . . . , pk érté-kek tetszőleges permutációjára ugyanazt az értéket adja.

5. Φ(P) differenciálható az értelmezési tartományában mindenhol

Adott T tanítóminta esetén a vágási függvény számításakor a pj való-színűséget nem ismerjük, így a relatív gyakorisággal közelítjük azaz, ha aj-edik osztályba tartozó tanítópontok halmazát Tj-vel jelöljük, akkor pj = |T|T |j|. A valószínűségvektor empirikus megfelelőjét P(T)-vel jelöljük:

P(T) = (|T1|

|T | ,|T2|

|T | , . . . ,|T|

|T |).

4.6.2. Definíció Az olyan V vágás jósága, amely során a T tanítópontokat tanítóponthalmaz esetén célunk megtalálni azt a vágást, amely a ∆Φ(V,T) maximális értékét eredményezi. Mivel a Φ(P(T)) adott tanítóhalmaz esetén rögzített, ezért elég a∑

i=1 Ti

T ·Φ(P(Ti))érték minimumát megtalálni.

MivelΦa vágási függvény csak az osztályok relatív gyakoriságát veszi figye-lembe, a vágás jósága, ∆Φ(V,T), nulla lesz abban az esetben, ha az osztályok eloszlása a gyerekekben megegyezik a szülőben található osztályeloszlással. Ez megfelel elvárásainknak, hiszen nem nyerünk semmit az olyan vágással, amely során az egyes osztályba tartozó pontok relatív száma egymáshoz viszonyítva mit sem változik.

Most már látható Taylor és Silverman miért fogalmazta meg az elvárásait.

Tekintsük a második és a harmadik elvárást. Azt szeretnénk, hogy a gyerme-kekben található tanítóminták minél homogénebbek legyenek. Ideális esetben olyan gyerekek jönnek létre, amelyekhez tartozó tanítópontok egy osztályba tartoznak. Ehhez az osztályhoz tartozó relatív gyakoriság 1, a többi osztályé 0 és a Φvágási függvény a minimumát veszi fel. A legrosszabb esetben az összes osztály relatív gyakorisága megegyezik, azaz a vágás során olyan gyerek jött létre, amelyben az osztályattribútum teljesen megjósolhatatlan. A harmadik elvárás szerint ezt az esetet büntetni kell, pontosabban: a Φ vágási függvény ekkor vegye fel a maxmimumát. Értelemszerűen a minimum és a maximum között a vágási függvény „normális és kezelhető” legyen, azaz legyen deriválható legalábbis minden pontban.

Nem meglepő, hogy az entrópia teljesíti az öt feltételt.

4.6.3. Lemma Az entrópia, mint vágási függvény, megfelel a Taylor-Silverman elvárásoknak [Quinlan, 1987].

Különböző kutatók különböző vágási függvényeket vezettek be. Például a CART algoritmusban a Gini indexet [Breiman és tsa., 1984, Gelfand és tsa., 1991]

használták:

Gini(P) = 1

k j=1

p2j.

A DKM vágási függvényt [Dietterich és tsa., 1996][Kearns és Mansour, 1996]

bináris osztályozás esetén ajánlják:

DKM(P) = 2·√ p1p2

4.6.4. Lemma A Gini és a DKM vágási függvények megfelelnek a Taylor-Silverman elvárásoknak.

Elméletileg bizonyították [Kearns és Mansour, 1996], hogy a DKM vágási függvény ugyanakkora hiba mellett kisebb döntési fákat állít elő, mintha ent-rópia vagy Gini index alapján választanánk ki a vágást.

Itt szeretnénk visszautalni az ID3 algoritmus ismertetése végén leírtakra.

Az entrópia alapú vágási függvények azokat a vágásokat részesítik előnyben, amelyek sokfelé vágnak, azaz sok gyereket hoznak létre. Általában is igaz, hogy ha a vágás jóságát a fenti módon definiáljuk és a vágási függvény kielégíti a Taylor-Silverman elvárásokat, akkor olyan vágások jönnek létre, amelyek-hez sok gyerek tartozik. Természetesen ez a probléma nem jelentkezik bináris döntési fák esetében. Ott minden belső csúcsnak pontosan két gyereke van.

A megoldást a vágás jóságának normalizálása jelenti. Például az infor-mációnyereség helyett, amint korábban említettük, a nyereségarányt (gain ra-tio) célszerű használni, amelyet megkapunk, ha az információnyereséget el-osztjuk az entrópiával. Általános esetben is hasonlót teszünk, De Mántaras szerint [De Mántaras, 1991] a vágás jóságának normáltját a következőképpen célszerű képezni:

||∆Φ(V,T)||= ∆Φ(V,T)

k

j=1

i=1pi,jlogpi,j,

ahol k a gyermekek számát, az osztályok számát, pi,j =|Ti,j|/|T |, és a Tji a j-edik gyermek i-dik osztályba tartozó tanítópontjainak halmazát jelöli.