D¨ont´esi f´ak - Oszt´ alyoz´ as 107 - Magyar nyelv˝ u irodalom

6. Oszt´ alyoz´ as 107

6.6. D¨ont´esi f´ak

A d¨ont´esi f´ak alap¨otlete, hogy bonyolult ¨osszef¨ugg´eseket egyszer˝u d¨ont´esek sorozat´ara vezet vissza. Egy ismeretlen minta klasszifik´al´asakor a fa gy¨oker´eb˝ol kiindulva a csom´opontokban fel-tett k´erd´esekre adott v´alaszoknak megfelel˝oen addig l´epked¨unk lefel´e a f´aban, am´ıg egy lev´elbe nem ´er¨unk. A d¨ont´est a lev´el c´ımk´eje hat´arozza meg. Egy hipotetikus, leegyszer˝us´ıtett, hi-telb´ır´alatra alkalmazhat´o d¨ont´esi f´at mutat be a 6.6. ´abra.⁴

´eves j¨ovedelem<2M HUF

3+ gyerek igen

megtagadni igen

j´ov´ahagyni nem

ingatlantulajdonos nem

j´ov´ahagyni igen

kor<30

nem

j´ov´ahagyni igen

megtagadni nem

6.6. ´abra. D¨ont´esi fa hitelb´ır´alatra

A d¨ont´esi f´ak nagy el˝onye, hogy automatikusan felismerik a l´enyegtelen v´altoz´okat. Ha egy v´altoz´ob´ol nem nyerhet˝o inform´aci´o a magyar´azott v´altoz´or´ol, akkor azt nem is tesztelik. Ez a tulajdons´ag az´ert el˝ony¨os, mert ´ıgy a f´ak teljes´ıtm´enye zaj jelenl´et´eben sem romlik, valamint a probl´emameg´ert´es¨unket is nagyban seg´ıti, ha megtudjuk, hogy mely v´altoz´ok fontosak, ´es me-lyek nem. ´Altal´aban elmondhat´o, hogy a legfontosabb v´altoz´okat a fa a gy¨ok´er k¨ozel´eben tesz-teli. Tov´abbi el˝ony, hogy a d¨ont´esi f´ak nagym´eret˝u adathalmazokra is hat´ekonyan fel´ep´ıthet˝ok.

A d¨ont´esi f´ak egyik fontos tulajdons´aga, hogy egy csom´opontnak mennyi gyermeke lehet.

Nyilv´anval´o, hogy egy olyan fa, amely pontjainak kett˝on´el t¨obb gyermeke is lehet mindig

´atrajzolhat´o bin´aris f´av´a. A legt¨obb algoritmus ez´ert csak bin´aris f´at tud el˝o´all´ıtani.

Weka 3.5.7 A d¨ont´esi f´akkal kapcsolatos m´odszereket a weka.classifiers.treescsomagban tal´aljuk. A Classifier output ablakban a d¨ont´esi f´at sz¨ovegesen megjelen´ıtve l´athatjuk, amennyi-ben nem kapcsoljuk ki a Classifier evaluation optionspanelen az Output model kapcsol´ot. A d¨ont´esi fa grafikus megjelen´ıt´es´ehez jobb gombbal klikkelj¨unk a Result list ablakban a megfelel˝o elemre ´es v´alasszuk a Visualize tree lehet˝os´eget.

6.6.1. D¨ ont´ esi f´ ak ´ es d¨ ont´ esi szab´ alyok

A d¨ont´esi f´ak el˝ony˝os tulajdons´aga, hogy a gy¨ok´erb˝ol egy lev´elbe vezet˝o ´ut ment´en a felt´eteleket ¨osszeolvasva k¨onnyen ´ertelmezhet˝o szab´alyokat kapunk a d¨ont´es meghozatal´ara,

4Az ´abr´azolt d¨ont´esi fa sem ´ert´ek´ıt´eletet, sem val´os hitelb´ır´alati szab´alyokat nem t¨ukr¨oz, puszt´an illusztr´aci´o.

illetve hasonl´oan egy laikus sz´am´ara is ´erthet˝o m´odon azt is meg tudjuk magyar´azni, hogy a fa mi´ert pont az adott d¨ont´est hozta.

6.6. ´eszrev´etel. A d¨ont´esi f´akb´ol nyert d¨ont´esi szab´alyhalmazok egy´ertelm˝uek.

Ez nyilv´anval´o, hiszen tetsz˝oleges objektumot a fa egy´ertelm˝uen besorol valamelyik level´ebe. E lev´elhez tartoz´o szab´alyra az objektum illeszkedik, a t¨obbire nem.

Vannak olyan d¨ont´esi feladatok, amikor a d¨ont´esi f´ak t´ul bonyolult szab´alyokat ´all´ıtanak el˝o. Ezt egy p´eld´aval illusztr´aljuk.

6.7. p´elda. Jel¨olj¨uk a n´egy bin´aris magyar´azand´o attrib´utumot A, B, C, D-vel. Legyen az oszt´alyattrib´utum is bin´aris ´es jel¨olj¨uk Y-nal. ´Alljon a d¨ont´esi szab´alysorozat h´arom szab´alyb´ol :

I. A=1 AND B=1 → Y=1 II. C=1 AND D=1 → Y=1 III. → Y=0

A szab´alysorozat teljes, hiszen az utols´o, felt´etel n´elk¨uli szab´alyra minden objektum illeszkedik.

A fenti oszt´alyoz´ast a 6.7 ´abr´an l´athat´o d¨ont´esi fa adja.

B 1

1 1

C 0

D 1

1 1

0 0

C 0

D 1

1 1

0 0

6.7. ´abra. P´elda adott d¨ont´esi sorozattal ekvivalens d¨ont´esi fa

A fenti p´eld´aban a d¨ont´esi fa az oszt´alyoz´as bonyolultabb le´ır´as´at adja, mint a szab´alysorozat. A s´arga ´es k´ek r´eszf´ak izomorfak. A r´eszfa ´altal adott oszt´alyoz´ast egyszer˝uen tudjuk kezelni a d¨ont´esi szab´alysorozatokkal, de a r´eszf´ak ism´etelt felrajzol´asa nem elker¨ulhet˝o d¨ont´esi f´ak eset´eben. Ezt a probl´em´at az irodalom ism´etl˝od˝o r´eszfa probl´emak´ent (replicated subtree problem) emlegeti ´es a d¨ont´esi f´ak egy alapprobl´em´aj´anak tekinti. A d¨ont´esi f´ak a meg-old´ast nagym´ert´ekben elbonyol´ıthatj´ak. Az el˝oz˝o p´eld´aban, ha a magyar´az´o attrib´utumok nem bin´arisak, hanem h´arom ´ert´eket vehetnek fel, akkor a megadott d¨ont´esi sorozattal ekvivalens d¨ont´esi fa a 6.6.1 ´abr´an l´athat´o.

1 C

1 0 0

0 0

6.8. ´abra. Az ism´etl˝od˝o r´eszfaprobl´ema szeml´eltet´ese

Az a r´eszfa, amelynek pontjait sz¨urk´evel jel¨olt¨uk megism´etl˝odik h´aromszor. Az ism´etl˝od˝o r´eszf´at egy h´aromsz¨oggel helyettes´ıtett¨uk az ´attekinthet˝os´eg ´erdek´eben. Term´eszetesen a fa j´oval egyszer˝ubb lenne, ha az attrib´utumot nem csak egy ´ert´ekkel hasonl´ıthatn´ank ¨ossze, hanem olyan tesztet is k´esz´ıthetn´enk, hogy az adott attrib´utum benne van-e egy adott ´ert´ekhalmazban.

P´eld´aul a gy¨ok´erben csak k´etfel´e c´elszer˝u ´agazni, att´ol f¨ugg˝oen, hogyA=1 vagyA6=1 (m´ask´epp A∈ {2,3}). Ha ilyen felt´eteleket megengedn´enk, akkor a 6.6.1 ´abr´an l´athat´o f´aval izomorf f´at kapn´ank (ha a c´ımk´eket nem vessz¨uk figyelembe).

6.6.2. A d¨ ont´ esi fa el˝ o´ all´ıt´ asa

A f´at a tan´ıt´o adatb´azisb´ol iterat´ıvan ´all´ıtjuk el˝o. Kiindulunk a teljes tan´ıt´o adatb´azisb´ol

´es egy olyan k´erd´est keres¨unk, aminek seg´ıts´eg´evel a teljes tanul´ohalmaz j´ol sz´etv´aghat´o. Egy sz´etv´ag´ast akkor tekint¨unk j´onak, ha a magyar´azand´o v´altoz´o eloszl´asa a keletkezett r´eszekben kev´esb´e sz´ort, kev´esb´e bizonytalan, mint a sz´etv´ag´as el˝ott. Egyes algoritmusok arra is t¨oreked-nek, hogy a keletkez˝o r´eszek kb. egyforma nagyok legyenek. A r´eszekre rekurz´ıvan alkalmazzuk a fenti elj´ar´ast. Egy csom´opont lesz´armazottjaiban nem vizsg´aljuk t¨obb´e azt az attrib´utumot, ami alapj´an sz´etosztjuk a mint´at.

A rekurzi´ot akkor szak´ıtjuk meg valamelyik ´agban, ha a k¨ovetkez˝o felt´etelek k¨oz¨ul teljes¨ul valamelyik :

– A csom´opont elemei ugyanabba az oszt´alyba tartoznak.

– Nincs t¨obb attrib´utum, ami alapj´an az elemeket tov´abb oszthatn´ank. A csom´oponthoz tartoz´o oszt´aly ekkor az lesz, amelyikhez a legt¨obb tan´ıt´opont tartozik.

– Nem tartozik az adott csom´oponthoz tan´ıt´opont.

– Az adott m´elys´eg el´ert egy el˝ore megadott korl´atot.

– Nincs olyan v´ag´as, amely jav´ıtani tudna az aktu´alis oszt´alyz´ason. A v´ag´as j´os´ag´ar´ol k´es˝obb sz´olunk.

Minden lev´elhez hozz´a kell rendeln¨unk a magyar´azand´o v´altoz´o egy ´ert´ek´et, a d¨ont´est. Ez

´altal´aban az ´un. t¨obbs´egi szavaz´as elve alapj´an t¨ort´enik : az lesz a d¨ont´es, amely kateg´ori´aba a legt¨obb tan´ıt´ominta tartozik. Hasonl´o m´odon bels˝o csom´opontokhoz is rendelhet¨unk d¨ont´est.

Weka 3.5.7 A d¨ont´esi fa interakt´ıv el˝o´all´ıt´as´at teszi lehet˝ov´e a weka.classifiers.trees.UserClassifier oszt´aly. A m´odszer el-ind´ıt´asa ut´an egy ablak jelenik meg amelynek k´et f¨ule van. A Tree Visualizerf¨ul¨on az aktu´alis f´at l´athatjuk, a Data Visualizerpedig a kijel¨olt fa csom´opontj´anak tan´ıt´opontjai jelen´ıti meg. Itt ´all´ıthatjuk el˝o a v´ag´asi f¨uggv´enyt, amelyhez vizu´alis seg´ıts´eget kapunk. Az oszt´aly el-oszl´as´at l´athatjuk k´et tetsz˝olegesen kiv´alaszthat´o attrib´utum ´ert´ekeinek f¨uggv´eny´eben. Ez alapj´an kijel¨olhet¨unk egy t´eglalapot, poligont vagy

osszek¨ot¨ott szakaszokat, amely kett´ev´alasztja a pontokat. Akkor j´o a kett´ev´alaszt´as, ha az oszt´alyattrib´utum szerint homog´en csoportok j¨onnek l´etre.

A d¨ont´esi f´ak el˝o´all´ıt´as´ara a k¨ovetkez˝o h´arom f˝o algoritmus csal´ad ismert : I. Interactive Dichotomizer 3 (ID3 ) csal´ad, jelenlegi v´altozat C5.0⁵

II. Classification and Regression Trees (CART)⁶

III. Chi-squared Automatic Interaction Detection (CHAID)⁷

6.6.3. Az ID3 algoritmus

Az ID3 az egyik leg˝osibb ´es legismertebb oszt´alyz´o algoritmus. A tesztattrib´utum kiv´alaszt´as´ahoz az entr´opia cs¨okken´es´et alkalmazza. Ha Y egy ` lehets´eges ´ert´eket pi (i =

= 1, . . . , `) val´osz´ın˝us´eggel felvev˝o val´osz´ın˝us´egi v´altoz´o, akkor Y Shannon-f´ele entr´opi´aj´an a H(Y) =H(p₁, . . . , p_`) =−

Xl j=1

p_jlog₂p_j

sz´amot ´ertj¨uk⁸. Az entr´opia az inform´aci´o-elm´elet (l´asd [37]) k¨ozponti fogalma, ´es Y v´altoz´o

´ert´ek´evel kapcsolatos bizonytalans´agunkat fejezi ki. Ha egy X v´altoz´ot megfigyel¨unk ´es azt tapasztaljuk, hogy ´ert´eke xi, akkor Y-nal kapcsolatos bizonytalans´agunk

H(Y|X=xi) =− Xl j=1

P(Y =yj|X=xi) log₂P(Y =yj|X=xi)

5Magyarul: Interakt´ıv tagol´o / feloszt´o

6Klasszifik´al´o ´es regresszi´os f´ak

7Khi-n´egyzet alap´u automatikus interakci´o felismer´es

8Az entr´opia k´eplet´eben 0·∞meg´allapod´as szerint 0-val egyenl˝o.

nagys´ag´u. ´Igy ha lehet˝os´eg¨unk van X-et megfigyelni, akkor a v´arhat´o bizonytalans´agunk H(Y|X) =

Xk i=1

P(X=xi)H(Y|X=xi) Eszerint X megfigyel´es´enek lehet˝os´ege a bizonytalans´ag

I(Y, X) =H(Y)−H(Y|X)

cs¨okken´es´et eredm´enyezi, azaz X ennyi inform´aci´ot hordoz Y-r´ol. Az ID3 az Y attrib´utum szerinti klasszifik´al´asakor olyan X attrib´utum ´ert´ekei szerint ´agazik sz´et, amelyre I(Y, X) ma-xim´alis, azaz H(Y|X) minim´alis.

Weka 3.5.7 A wek´aban az Id3 algoritmust a weka.-classifiers.treea.Id3oszt´aly implement´alja.

A k¨olcs¨on¨os entr´opia azokat az attrib´utumokat

”kedveli”, amelyek sok ´ert´eket vesznek fel ´es

´ıgy sokfel´e ´agazik a fa [137]. Ez tereb´elyes f´akat eredm´enyez. Gondoljuk meg, ha a ki´ert´ekel´esbe bevessz¨uk az azonos´ıt´o k´odot, akkor az 0 k¨olcs¨on¨os entr´opi´at fog produk´alni, ´ıgy az algorit-mus azt v´alasztan´a. Hasonl´o a probl´ema az 1R m´odszer diszkretiz´al´as´an´al eml´ıtettel (l´asd ??.

oldal). Egy lehets´eges megold´as a gain ratio mutat´o haszn´alata [139], amelyre mint norm´alt k¨olcs¨on¨os inform´aci´o tekint¨unk. Ez a mutat´o figyelembe veszi a gyerek csom´opontokba ker¨ul˝o tan´ıt´opontok sz´am´at ´es

”b¨unteti” azokat az attrib´utumokat, amelyek t´ul sok gyereket hoznak l´etre. A gain ratiot ´ugy kapjuk meg, hogy a k¨olcs¨on¨os inform´aci´ot elosztjuk, az adott attrib´utum entr´opi´aj´aval :

gain ratio(X) = I(Y, X) H(X) . Sajnos a gain ratio sok esetben

”t´ulkompenz´al” ´es olyan attrib´utumokat r´eszes´ıt el˝onyben, amelynek az entr´opi´aja kicsi. Egy ´altal´anos gyakorlat, hogy azt az attrib´utumot v´alasztj´ak, amelyik a legnagyobb gain ratio-t adja, azon attrib´utumok k¨oz¨ul, amelyekhez tartoz´o k¨olcs¨on¨os inform´aci´o legal´abb akkora mint az ¨osszes vizsg´alt attrib´utumhoz tartoz´o k¨olcs¨on¨os inform´aci´ok

´atlaga.

6.6.4. Felt´ etelek a csom´ opontokban

Az ID3 algoritmus kiv´alasztja a minim´alis felt´eteles entr´opi´aval rendelkez˝o attrib´utumot ´es annyi gyerekcsom´opont j¨on l´etre, amennyi ´ert´eket felvesz az attrib´utum. Le´all´asi felt´etelk´ent szerepel, hogy egy ´agat nem v´agunk tov´abb, ha nincs t¨obb vizsg´alhat´o attrib´utum, azaz a fa maxim´alis m´elys´ege megegyezik az attrib´utumok sz´am´aval. Az ID3 algoritmus nem felt´etlen¨ul bin´aris f´at ´all´ıt el˝o.

Ha bin´aris fa el˝o´all´ıt´asa a c´el (tov´abb´a az intervallum t´ıpus´u attrib´utum szofisztik´altabb kezel´ese), akkor a magyar´az´oX attrib´utum t´ıpus´at´ol f¨ugg˝oen k´etf´ele felt´etelt szok´as l´etrehozni.

Sorrend t´ıpus eset´ebenX≥c, aholcegy olyan ´ert´ek, amelyet azX felvesz valamelyik tan´ıt´opont eset´en. Intervallum t´ıpus´u attrib´utumokn´al a c k´et szomsz´edos tan´ıt´o´ert´ek ´atlaga. Kateg´oria t´ıpus eset´ebenX⊆K, aholK azX´ert´ekk´eszlet´enek egy r´eszhalmaza. Az els˝o esetbenX felvett

´ert´ekeivel line´arisan ar´anyos felt´eteles entr´opi´at kell sz´am´ıtani, a m´asodikban pedig a felvett

´ert´ekek sz´am´aval exponenci´alis sz´am´ut (ugyanis egyn elem˝u halmaznak 2ⁿ darab r´eszhalmaza van).

Sok esetben akkor kapunk j´o bin´aris d¨ont´esi f´at, ha egy gy¨ok´erb˝ol lev´elig vezet˝o ´uton egy attrib´utumot t¨obbsz¨or is vizsg´alunk (k¨ul¨onb¨oz˝o konstansokkal). A fa m´elys´ege ekkor az att-rib´utumok sz´am´an´al j´oval nagyobb is lehet.

6.6.5. V´ ag´ asi f¨ uggv´ enyek

Mi´ert pont a k¨olcs¨on¨os inform´aci´ot haszn´alja az ID3 algoritmus ? Milyen j´o tulajdons´aggal rendelkezik a k¨olcs¨on¨os inform´aci´o? Van egy´eb v´ag´asi f¨uggv´eny, amely rendelkezik ezekkel a j´o tulajdons´agokkal ? A v´alaszok kulcsa aTaylor-Silverman elv´ar´asok (impurity-based criteria) ´es a v´ag´asok j´os´aga.

6.8. defin´ıci´o. Legyen X egy olyan diszkr´et val´osz´ın˝us´egi v´altoz´o, amely k-´ert´eket vehet fel.

Az eloszl´asf¨uggv´eny ´ert´ekei legyenek P = (p1, p2, . . . , pk). A Φ : [0,1]^k7−→R v´ag´asi f¨uggv´ennyel szemben t´amasztott Taylor-Silverman elv´ar´asok a k¨ovetkez˝ok :

I. Φ(P)≥0

II. Φ(P) akkor veszi fel a minimum´at, ha ∃j:pj = 1 III. Φ(P) akkor veszi fel a maximum´at, ha ∀j:pj = 1/k

IV. Φ(P) a P komponenseire n´ezve szimmetrikus, teh´at a p1, p2, . . . , pk ´ert´ekek tetsz˝oleges permut´aci´oj´ara ugyanazt az ´ert´eket adja.

V. Φ(P) differenci´alhat´o az ´ertelmez´esi tartom´any´aban mindenhol

Adott T tan´ıt´ominta eset´en a v´ag´asi f¨uggv´eny sz´am´ıt´asakor a pj val´osz´ın˝us´eget nem is-merj¨uk, ´ıgy a relat´ıv gyakoris´aggal k¨ozel´ıtj¨uk azaz, ha a j-edik oszt´alyba tartoz´o tan´ıt´opontok halmaz´at T^j-vel jel¨olj¨uk, akkor p_j=^|_|^T_T^j_|^|. A val´osz´ın˝us´egvektor empirikus megfelel˝oj´et P(T)-vel jel¨olj¨uk (P(T) = (^|^T_|_T¹_|^|),^|^T_|_T²_|^|, . . . ,^|^T_|_T^k_|^|).

6.9. defin´ıci´o. Az olyan V v´ag´as j´os´aga, amely sor´an a T tan´ıt´opontokat T₁,T₂, . . . ,T_` disz-junkt tan´ıt´ohalmazba osztjuk sz´et, megegyezik a

∆Φ(V,T) = Φ(P(T))− X`

i=1

T_i

T ·Φ(P(Ti))

´ert´ekkel.

Min´el nagyobb egy v´ag´asi f¨uggv´eny, ann´al jobb a v´ag´as. Adott v´ag´asi f¨uggv´eny ´es tan´ıt´oponthalmaz eset´en c´elunk megtal´alni azt a v´ag´ast, amely a maxim´alis v´ag´ast eredm´enyezi.

Mivel a Φ(P(T)) adott tan´ıt´ohalmaz eset´en r¨ogz´ıtett, ez´ert el´eg a P` i=1

T_i

T ·Φ(P(T_i)) ´ert´eket mi-nimum´at megtal´alni.

Amennyiben a v´ag´asi f¨uggv´eny csak az oszt´alyok relat´ıv gyakoris´ag´at veszi figyelembe, akkor a v´ag´as j´os´aga 0 lesz abban az esetben, ha az oszt´alyok eloszl´asa a gyerekekben megegyezik a

sz¨ul˝oben tal´alhat´o oszt´alyeloszl´assal. Ez megfelel elv´ar´asainknak, nem nyer¨unk semmit az olyan v´ag´assal, amely sor´an az egyes oszt´alyba tartoz´o pontok relat´ıv sz´ama egym´ashoz viszony´ıtva mit sem v´altozik.

Most m´ar l´athat´o Taylor ´es Silverman mi´ert fogalmazta meg az elv´ar´asait. A l´enyeg a m´asodik ´es a harmadik elv´ar´as. Azt szeretn´enk, hogy a gyermekekben tal´alhat´o tan´ıt´omint´ak min´el homog´enebbek legyenek. Ide´alis esetben olyan gyerekek j¨onnek l´etre, amelyekhez tar-toz´o tan´ıt´opontok egy oszt´alyba tartoznak. Ehhez az oszt´alyhoz tartar-toz´o relat´ıv gyakoris´ag 1, a t¨obbi oszt´aly´e 0 ´es a v´ag´asi f¨uggv´eny a minimum´at veszi fel. A legrosszabb esetben az ¨osszes oszt´aly relat´ıv gyakoris´aga megegyezik, azaz a v´ag´as sor´an olyan gyerek j¨ott l´etre, amelyben az oszt´alyattrib´utum teljesen megj´osolhatatlan. A harmadik elv´ar´as szerint ezt az esetet b¨untetni kell, pontosabban a v´ag´asi f¨uggv´eny vegye fel a minimum´at. ´Ertelemszer˝uen a minimum ´es a maximum k¨oz¨ott a v´ag´asi f¨uggv´eny

”norm´alis ´es kezelhet˝o” legyen, azaz legyen deriv´alhat´o legal´abbis minden pontban.

Nem meglep˝o, hogy az entr´opia teljes´ıti az ¨ot felt´etelt.

6.10. lemma. Az entr´opia, mint v´ag´asi f¨uggv´eny, megfelel a Taylor-Silverman elv´ar´asoknak [138].

K¨ul¨onb¨oz˝o kutat´ok k¨ul¨onb¨oz˝o v´ag´asi f¨uggv´enyeket vezettek be. P´eld´aul a CART algorit-musban a Gini indexet [24, 63] haszn´alt´ak :

Gini(T) = 1− Xk

j=1

p²_j.

A DKM v´ag´asi f¨uggv´enyt [42][93] bin´aris oszt´alyoz´as eset´en aj´anlj´ak : DKM(T) = 2·√p1p2

6.11. lemma. A Gini ´es a DKM v´ag´asi f¨uggv´enyek megfelelnek a Taylor-Silverman elv´ar´asoknak.

Elm´eletileg bizony´ıtott´ak [93], hogy a DKM v´ag´asi f¨uggv´eny ugyanakkora hiba mellett ki-sebb d¨ont´esi f´akat ´all´ıt el˝o, mintha entr´opia vagy Gini index alapj´an v´alasztan´ank ki a v´ag´ast.

Itt szeretn´enk visszautalni az ID3 algoritmus ismertet´ese v´eg´en le´ırtakra. Az entr´opia alap´u v´ag´asi f¨uggv´enyek azokat a v´ag´asokat r´eszes´ıtik el˝onyben, amelyek sokfel´e v´agnak, azaz sok gyereket hoznak l´etre. ´Altal´aban is igaz, hogy ha a v´ag´as j´os´ag´at a fenti m´odon defini´aljuk ´es a v´ag´asi f¨uggv´eny kiel´eg´ıti a Taylor-Silverman elv´ar´asokat, akkor olyan v´ag´asok j¨onnek l´etre, amelyekhez sok gyerek tartozik. Term´eszetesen ez a probl´ema nem jelentkezik bin´aris d¨ont´esi f´ak eset´eben. Ott minden bels˝o cs´ucsnak pontosan k´et gyereke van.

A megold´ast a v´ag´as j´os´ag´anak normaliz´al´asa jelenti. P´eld´aul az inform´aci´onyeres´eg helyett a gain ratio-t c´elszer˝u haszn´alni, amelyet megkapunk, ha az inform´aci´onyeres´eget elosztjuk az entr´opi´aval. ´Altal´anos esetben is hasonl´ot tesz¨unk. A [114] cikk szerint a v´ag´as j´os´ag´anak norm´altj´at a k¨ovetkez˝ok´eppen c´elszer˝u k´epezni :

||∆Φ(V,T)||= ∆Φ(V,T)

−P` i=1

j=1pijlogpij

aholp_ij=|T^j_i|/|T|. AzT_i^j azi-edik gyermekj oszt´alyba tartoz´o tan´ıt´opontjainak halmaz´at jel¨oli.

6.6.6. Tov´ abbfejleszt´ esek

M´ıg az ID3 csal´adba tartoz´o f´ak csak klasszifik´aci´ora, addig a CHAID ´es a CART klasszi-fik´aci´ora ´es el˝orejelz´esre is alkalmazhat´o. A C4.5 (amelynek kereskedelmi, jav´ıtott v´altozata a C5.0) ´es a CHAID f´ak kiz´ar´olag egyetlen attrib´utumra vonatkoz´o egyenl˝o, kisebb, nagyobb teszteket haszn´aln´ak a csom´opontokban a d¨ont´esekhez (egyv´altoz´os f´ak), azaz a jellemz˝ok ter´et t´eglatestekre v´agj´ak fel. A CART f´ak ferd´en is tudnak v´agni, attrib´utumok line´aris kom-bin´aci´oj´at is tesztelik (rel´aci´os f´ak). M´ıg a CART elj´ar´as mindig bin´aris d¨ont´eseket haszn´al a csom´opontokban, addig egy nomin´alis attrib´utumra egy C4.5 fa annyi fel´e ´agazik, ah´any lehets´eges ´ert´eket az attrib´utum felvehet.

Tal´an a legl´enyegesebb k¨ul¨onbs´eg a k¨ul¨onb¨oz˝o f´ak k¨oz¨ott, hogy mit tekintenek j´o d¨ont´esnek, v´ag´asnak. Nomin´alis magyar´azott v´altoz´o eset´en a CHAID elj´ar´as – nev´enek megfelel˝oen – a χ²-tesztet haszn´alja. A CART metodol´ogia a Gini-indexet minimaliz´alja. A Gini-index alapj´an mindig olyan attrib´utumot keres¨unk, amely alapj´an a legnagyobb homog´en oszt´alyt tudjuk lev´alasztani.

Ha a magyar´azand´o Y v´altoz´o intervallum sk´al´an m´ert, akkor a CART elj´ar´as egyszer˝uen a varianci´aj´anak cs¨okkent´es´ere t¨orekszik, a CHAID pedig F-tesztet haszn´al.

A CHAID konzervat´ıv elj´ar´as, csak addig n¨oveli a f´at, am´ıg a cs´ucsban alkalmazhat´o legjobb sz´etv´ag´asχ²-, vagyF-teszt szerinti szignifikanci´aja meghalad egy el˝ore adott k¨usz¨ob¨ot. A CART

´es C4.5 elj´ar´asok nagym´eret˝u f´at ´ep´ıtenek, ak´ar olyat is, amelyik t¨ok´eletesen m˝uk¨odik a tanul´o adatb´azison vagy olyan heurisztikus le´all´asi szab´alyokat alkalmaznak, hogy a fa nem lehet egy el˝ore adott korl´atn´al m´elyebb, vagy hogy egy cs´ucsot nem szabad m´ar sz´etv´agni, ha egy korl´atn´al kevesebb eset tartozik bele. Mindenesetre a kialakul´o fa nagy ´es tereb´elyes lesz, t´ul speci´alis, amely nem csak az alappopul´aci´o jellemz˝oit, hanem a mint´aban el˝ofordul´o v´eletlen saj´atoss´agokat is modellezi. Ez´ert a f´at fel´ep´ıt´ese ut´an egy ellen˝orz˝o adatb´azist haszn´alva meg szokt´ak metszeni (pruning) ´es elhagyj´ak a felesleges d¨ont´eseket.

Tan´acsos megvizsg´alni, hogy nem fordul-e el˝o, hogy a gener´alt C5.0 vagy CHAID fa egym´as ut´an ism´etelten kev´es (2-3) attrib´utum ´ert´ek´et teszteli. Ez arra utalhat, hogy az attrib´utumok valamely f¨uggv´enye (pl. : h´anyadosa - egy f˝ore es˝o j¨ovedelem) b´ır magyar´az´o er˝ovel ´es a fa ezt a kapcsolatot pr´ob´alja ism´etelt vagdos´assal k¨ozel´ıteni.

Weka 3.5.7 A C4.5 egy tov´abbfejlesztett v´altozat´anak java imp-lement´aci´oja a weka.classifiers.trees.J48 oszt´aly. Tel´an ez a

In document Magyar nyelv˝ u irodalom (Pldal 128-137)