D¨ont´esi szab´alyok - Oszt´ alyoz´ as ´ es regresszi´ o 113

6. Oszt´ alyoz´ as ´ es regresszi´ o 113

6.6. D¨ont´esi szab´alyok

6.2. defin´ıci´o. AzA attrib´utumhalmaz felett ´ertelmezett d¨ont´esi szab´aly alatt olyanR:φ(A)→ Y =y logika implik´aci´ot ´ert¨unk, amelyek felt´etelr´esz´eben attrib´utumokra vonatkoz´o felt´etelek logikai kapcsolatai ´allnak, a k¨ovetkezm´enyr´eszben pedig az oszt´alyattrib´utumra vonatkoz´o ´ıt´elet.

P´eld´aul a H}OM´ERS´EKLET = magas AND SZ´EL = nincs → ID}O J´AT´EKRA alkalmas egy d¨ont´esi szab´aly, amely azt fejezi ki, hogy ha magas a h˝om´ers´eklet ´es nincs sz´el, akkor az id˝o alkalmas k¨ult´eri j´at´ekra.

A val´osz´ın˝us´egi d¨ont´esi szab´alyokban a k¨ovetkezm´enyr´eszben az oszt´alyattrib´utumra vonat-koz´o val´osz´ın˝us´egi eloszl´as szerepel. Ilyen szab´alyra p´elda az aut´obiztos´ıt´as ter¨ulet´er˝ol, hogy nem = f´erfi AND gyerek sz´ama = 0 AND aut´o teljes´ıtm´eny > 150LE → kock´azatos

= (80%, 20%).

A felt´etelr´eszben az ´es, vagy ´es a neg´aci´o tetsz˝oleges kombin´aci´oj´at felhaszn´alhatjuk . . . elvileg. A gyakorlatban ugyanis csak olyan szab´alyokkal foglalkoznak, amelyben egy alap-felt´etel neg´aci´oja ´es a alap-felt´etelek ´es kapcsolatai szerepelnek. Ez az´ert nem olyan nagy meg-szor´ıt´as. Ha az azonos k¨ovetkezm´enyr´esszel rendelkez˝o szab´alyokb´ol egy szab´alyt k´esz´ıt¨unk

ugy, hogy a felt´etelek vagy kapcsolat´at k´epezz¨uk, akkor elmondhatjuk, hogy a szab´alyok felt´etelr´esz´eben diszjunkt´ıv norm´al formul´ak ´allnak. Minden ´ıt´eletlogik´aban megadott formu-la ´at´ırhat´o diszjunkt´ıv norm´al formul´av´a a dupformu-la neg´aci´o elimin´al´as´aval, a de Morgan ´es a disztributivit´asi szab´aly alkalmaz´as´aval.

6.3. defin´ıci´o. Az R : φ(A)→ Y =y szab´alyra illeszkedik az t objektum, ha a felt´etelr´esz attrib´utumv´altoz´oiba az t megfelel˝o ´ert´ekeit helyettes´ıtj¨uk, akkor igaz ´ert´eket kapunk.

Amennyiben a szab´aly k¨ovetkezm´enyr´esze is igazra ´ert´ekel˝odik az objektumon, akkor a szab´aly fenn´all vagy igaz az objektumon.

6.4. defin´ıci´o. Az R:φ(A)→Y =y szab´aly lefedi az T objektumhalmazt, ha minden objektum illeszkedik a szab´alyra. Adott T tan´ıt´o halmaz eset´en az R ´altal fedett tan´ıt´opontok halmaz´at coverT(R)-rel jel¨olj¨uk.

Helyesen fedi az T halmazt az R :φ(A)→Y =y szab´aly, ha R fedi T-t ´es a halmaz ¨osszes objektuma azyoszt´alyba tartozik. Ellenkez˝o esetbenhelytelen fed´esr˝ol vagy egyszer˝ubben rossz oszt´alyoz´asr´ol besz´el¨unk. AcoverT-ben azR´altal helyesen fedett pontok halmaz´atcover⁺T (R)-rel jel¨olj¨uk (a helytelen¨ul fedettek´et pedig cover⁻T(R)-rel).

6.5. defin´ıci´o. Az R szab´aly relat´ıv fed´esi hib´aja megegyezik a rosszul oszt´alyozott pontok sz´am´anak a fedett tan´ıt´opontokhoz vett ar´any´aval, teh´at

ErT(R) = cover⁻T(R) coverT(R) . D¨ont´esi szab´alyok kifejez˝oereje

Kifejez˝o erej¨uk szempontj´ab´ol a d¨ont´esi szab´alyok k¨ovetkez˝o t´ıpusair´ol besz´el¨unk:

´ıt´etelkalkulus-alap´u d¨ont´esi szab´aly A felt´etelr´eszben predik´atumok logikai kapcsolata ´all (´ıt´eletkalkulus egy formul´aja, amelyben nem szerepelnek a → ´es ←→ m˝uveleti jelek).

Minden predik´atum egy attrib´utumra vonatkozik. Amennyiben az attrib´utum kateg´oria t´ıpus´u, akkor A =a vagy A ∈ A alak´u a felt´etel, ahol a egy konstans, A pedig az A

´ert´ekk´eszlet´enek egy r´eszhalmaza. Sorrend vagy intervallum t´ıpus´u attrib´utum eset´eben emellett A≤a ´es a⁰≤A≤a⁰⁰ szab´alyokat is megenged¨unk.

Az algoritmusok t¨obbs´ege csak olyan egyszer˝u formul´akat tud el˝o´all´ıtani, amelyekben a predik´atumok ´es kapcsolatai ´allnak, p´eld´aulMAGASS´AG ≤170 AND HAJSZ´IN = barna AND SZEMSZ´IN ∈ {k´ek, z¨old}.

A csak ´ıt´eletkalkulus-alap´u szab´alyokat tartalmaz´o d¨ont´esi szab´alyokat/f´akat univariate (egyv´altoz´os) d¨ont´esi szab´alyoknak/f´aknak h´ıvjuk.

rel´aci´o-alap´u d¨ont´esi szab´aly Ha halmazelm´eleti szemmel n´ezz¨uk a predik´atumokat, akkor az attrib´utumokra vonatkoz´o predik´atumot nevezhet¨unk bin´aris rel´aci´onak, amelynek egyik tagja egy v´altoz´o, m´asik tagja egy konstans. A rel´aci´o-alap´u d¨ont´esi szab´alyokban a m´asodik tag attrib´utumv´altoz´o is lehet. Itt p´eld´aul a hajsz´ın = szemsz´ın vagy a sz´eless´eg < magass´ag megengedett felt´etelek. A rel´aci´o-alap´u szab´alyokat tartal-maz´o d¨ont´esi szab´alyokat/f´akat multivariate (t¨obbv´altoz´os) d¨ont´esi szab´alyoknak/f´aknak h´ıvjuk. A rel´aci´o alap´u d¨ont´esi szab´alyoknak nem nagyobb a kifejez˝o erej¨uk, amennyiben az attrib´utumok ´ert´ek´eszlete v´eges. Ekkor ugyanis egy rel´aci´os szab´aly helyettes´ıthet˝o sok egyv´altoz´os szab´alyp´arral. A fenti p´elda megfelel˝oje a hajsz´ın = barna AND szemsz´ın

= barna, hajsz´ın = k´ek AND szemsz´ın = k´ek, hajsz´ın = m´alyva AND szemsz´ın = m´alyva szab´alyokkal.

indukt´ıv logikai programoz´as P´eldak´ent tegy¨uk fel, hogy ´ep´ıt˝oelemek egy kupac´at to-ronynak h´ıvjuk, amelynek legfels˝o elem´ere a cs´ucs, a marad´ek elemekre pedig a marad´ek attrib´utummal hivatkozunk. A sz´eless´eg < magass´ag → ALAK = ´all´o szab´alyt ´ugy is ´ırhatjuk, hogy sz´eless´eg(´ep´ıt}oelem) < magass´ag(´ep´ıt}oelem) →

all´o(´ep´ıt}oelem). S˝ot a szab´alyt tov´abb is bonyol´ıthatjuk: sz´eless´eg(torony.cs´ucs)

< magass´ag(torony.cs´ucs) AND ´all´o(torony.marad´ek) → ´all´o(torony). Ez egy rekurz´ıv kifejez´es, amely szerint egy torony akkor ´all´o, ha a legfels˝o elem magass´aga na-gyobb a sz´eless´eg´en´el ´es a marad´ek elem ´all´o. A rekurzi´ot le kell z´arni:torony = ¨ures →

all´o(torony). A rekurz´ıv szab´alyoknak nagyobb a kifejez˝oerej¨uk, mint a rel´aci´o-alap´u d¨ont´esi szab´alyhalmaznak, hiszen kifejetve tetsz˝oleges sz´am´u predik´atumot tartalmazhat-nak. A rekurz´ıv szab´alyokat is tartalmaz´o szab´alyhalmazt logikai programnak nevezz¨uk, ezekkel tov´abbiakban nem foglalkozunk.

6.6.1. Szab´ alyhalmazok ´ es szab´ alysorozatok

Besz´el¨unk szab´alyhalmazr´ol ´es szab´alyok sorozat´ar´ol. Halmazok eset´en a szab´alyok f¨ ugget-lenek egym´ast´ol. A szab´alyhalmaz egy´ertelm˝u, ha tetsz˝oleges objektum csak egy szab´alyra il-leszkedik.

Sorozat eset´eben egy ´uj objektum oszt´alyattrib´utum´anak j´osl´as´an´al egyes´evel sorra vessz¨uk a szab´alyokat eg´eszen addig, am´ıg olyat tal´alunk, amelyre illeszkedik az objektum. Ennek a szab´alynak a k¨ovetkezm´enyr´esze adja meg az oszt´alyattrib´utum ´ert´ek´et.

Egy szab´alyrendszer (sorozat vagy halmaz) teljes, ha tetsz˝oleges objektum illeszthet˝o egy szab´alyra. Ez k¨oznyelven azt jelenti, hogy az oszt´alyoz´o minden esetben (tetsz˝oleges oszt´alyozand´o elemre) d¨ont´est hoz. Sorozatok eset´eben a teljess´eget ´altal´aban az utols´o, ´un.

alap´ertelmezett szab´aly biztos´ıtja, amelynek felt´etelr´esze ¨ures, teh´at minden objektum illeszke-dik r´a.

”Kaliforniai kutat´ok szerint a marihu´ana egyik ¨osszetev˝oje blokkolni k´epes a mellr´ak sz´etterjed´es´et a szervezet-ben.” Forr´as: http://velvet.

hu/blogok/gumicukor/tags/kutat\

%C3\%A1s Szab´alysorozat eset´eben nem kell besz´eln¨unk

egy´ertelm˝us´egr˝ol, hiszen t¨obb szab´alyra val´o illesz-ked´es eset´en egy´ertelm˝u a legels˝o illeszked˝o. A szab´alyok k¨oz¨otti sorrend (vagy m´ask´epp priorit´as) biztos´ıt´as´aval ker¨ulj¨uk el azt a probl´em´at, hogy milyen d¨ont´est hozzunk, ha egy objektumra t¨obb, k¨ul¨onb¨oz˝o k¨ovetkezm´enyr´esszel rendelkez˝o szab´aly illeszkedik.

Sajnos a sorrend defini´al´as´anak ´ara van. Szab´alyhalmaz eset´en ugyanis minden szab´aly a tud´asunk egy t¨ored´ek´et r¨ogz´ıti. Sorozatok eset´eben azonban egy szab´alyt nem

emel-het¨unk ki a k¨ornyezet´eb˝ol; egy R szab´aly csak akkor s¨uthet˝o el, ha azR-et megel˝oz˝o szab´alyok felt´etelr´eszei nem teljes¨ulnek.

A szab´alyok sorozata ´at´ırhat´o szab´alyok halmaz´aba ´ugy, hogy egyes´evel vessz¨uk a szab´alyokat az els˝ot˝ol ´es a felt´etelr´eszhez hozz´af˝uzz¨uk az el˝otte ´all´o szab´alyok felt´etelr´esz neg´altjainak ´es kapcsolat´at. Az ´ıgy kapott szab´alyhalmaz azonban t´ul olvashatatlan, bonyo-lult lesz. Sorozattal az ¨osszef¨ugg´es esetleg egy t¨om¨orebb, k¨onnyebben ´ertelmezhet˝obb form´aj´at kapjuk.

6.6.2. D¨ ont´ esi t´ abl´ azatok

A d¨ont´esi t´abl´azat minden oszlopa egy attrib´utumnak felel meg, az utols´o oszlop az oszt´alyattrib´utumnak. AzA attrib´utumhoz tartoz´o oszlopban azA ´ert´ek´ere vonatkoz´o felt´etel szerepelhet, leggyakrabbanA=aalakban (´ıt´etelkalkulus-alap´u d¨ont´esi szab´aly). A t´abl´azat egy sora egy d¨ont´esi szab´alyt r¨ogz´ıt. Ha az attrib´utumok a sorban szerepl˝o felt´eteleket kiel´eg´ıtik, ak-kor az oszt´alyattrib´utum ´ert´eke megegyezik a sor utols´o elem´enek ´ert´ek´evel. El´eg az elm´eletb˝ol, l´assunk egy p´eld´at :

id˝oj´ar´as h˝om´ers´eklet p´aratartalom sz´el j´at´ekid˝o ?

napos meleg magas nincs nem

napos meleg magas van nem

bor´us meleg magas nincs nem

es˝os enyhe magas nincs igen

es˝os hideg magas nincs igen

Egy d¨ont´esi t´abl´azat tulajdonk´eppen egy speci´alis d¨ont´esi szab´alyhalmaz, amelyre igaz, hogy a felt´etelr´eszben pontosan ugyanazok az attrib´utumok szerepelnek.

D¨ont´esi t´abl´ak el˝o´all´ıt´as´an´al a k¨ovetkez˝o k´erd´eseket kell tiszt´azni:

I. Az attrib´utumok melyik r´eszhalmaz´at ´erdemes kiv´alasztani? Ide´alis az lenne, ha minden r´eszhalmazt ki tudn´ank ´ert´ekelni ´es kiv´alasztani azt, amelyik a legkisebb hib´at (rosszul

oszt´alyozott tan´ıt´opontok sz´ama) adja. A gyakorlatban azonban az attrib´utumok sz´ama nagy ez´ert az ¨osszes r´eszhalmaz kipr´ob´al´asa sok id˝obe telik.

II. Hogyan kezelj¨uk a folytonos attrib´utumokat ? A fenti p´eld´aban a h˝om´ers´ekletet diszkre-tiz´altuk. Meleg az id˝o, ha 25 fokn´al t¨obb van, alatta enyhe 5 fokig. Ha a h˝om´ers´eklet 5 fok al´a megy, akkor hideg van. Ide´alis az lenne, ha a folytonos attrib´utumokat az algoritmus automatikusan tudn´a diszkretiz´alni.

6.6.3. Az 1R algoritmus

Tal´an a legegyszer˝ubb oszt´alyz´o algoritmus az 1R. Kiv´alaszt egy attrib´utumot ´es az oszt´alyoz´asban kiz´ar´olag ezt haszn´alja. Annyi szab´alyt ´all´ıt el˝o, ah´any ´ert´eket felvesz a kiv´alasztott attrib´utum a tan´ıt´ohalmazban. Az A=a→Y =c szab´aly k¨ovetkezm´enyr´esz´eben szerepl˝o c oszt´aly a legt¨obbsz¨or el˝ofordul´o oszt´aly az A attrib´utum´aban a ´ert´eket felvev˝o tan´ıt´omint´ak k¨oz¨ul.

Nyilv´anval´o, hogy az 1R egy´ertelm˝u szab´alyhalmazt ´all´ıt el˝o.

Minden attrib´utum´ert´ekhez meg tudjuk hat´arozni a rosszul oszt´alyozott tan´ıt´opontok sz´am´at. Ha ¨osszeadjuk az A attrib´utum ´ert´ekeihez tartoz´o rosszul oszt´alyozott tan´ıt´opontok sz´am´at, akkor megkapjuk, hogy mennyi tan´ıt´opontot oszt´alyozn´ank rosszul, ha az A att-rib´utum lenne a kiv´alasztott. A legkevesebb rosszul oszt´alyozott tan´ıt´opontot ad´o attrib´utumot v´alasztjuk oszt´alyz´o attrib´utumnak. Hi´anyz´o attrib´utum´ert´ekeket ´ugy kezelj¨uk, mintha az att-rib´utumnak lenne egy k¨ul¨onleges, a t¨obbit˝ol elt´er˝o ´ert´eke.

Sorrend ´es intervallum t´ıpus´u attrib´utumn´alA≤a,a⁰≤A < a⁰⁰´esa⁰⁰⁰≤A t´ıpus´u szab´alyokat c´elszer˝u el˝o´all´ıtani. Ehhez csoportos´ıtsuk az egym´ast k¨ovet˝o ´ert´ekeket ´ugy, hogy a hozz´ajuk tar-toz´o oszt´aly´ert´ek szempontj´ab´ol homog´en csoportokat hozzanak l´etre. Erre diszkretiz´al´ask´ent is hivatkozunk ´es az 1R sor´an haszn´alt m´odszert az El˝ofeldolgoz´as fejezetben ismertett¨uk (l´asd 3.3.5 r´esz).

Hab´ar a sorrend ´es intervallum t´ıpus´u attrib´utum csoportos´ıt´as´an sokat lehet elm´elkedni az 1R m´odszer nem t´ul bonyolult. Egyszer˝us´ege ellen´ere el´eg j´ol muzsik´al a gyakorlatban. Egy meglep˝o cikkben [59] a szerz˝o arr´ol ´ırt, hogy az 1R sokkal jobb oszt´alyz´o algoritmus, mint azt hinn´enk. A szerz˝ok azon a 16 adatb´azison ´ert´ekelt´ek ki a k¨ul¨onb¨oz˝o oszt´alyoz´o m´odszereket – k¨ozt¨uk az 1R-t –, amelyeket a kutat´ok gyakran haszn´alnak cikkeikben. A diszkretiz´al´asn´al 3 helyett 6-ot haszn´alt, a m´odszereket kereszt-valid´aci´os elj´ar´assal hasonl´ıtotta ¨ossze. Az 1R zavarba ejt˝oen j´o helyen v´egzett, a pontoss´ag tekintet´eben alig maradt el az ´ujabb ´es j´oval bonyolultabb elj´ar´asokt´ol.

Az 1R nev´eben szerepl˝o sz´am az oszt´alyoz´as sor´an felhaszn´alt attrib´utum sz´am´ara utal.

L´etezik 0R oszt´alyoz´o is, amely nem haszn´al fel egyetlen attrib´utumot sem. Az oszt´alyoz´o ekkor egy felt´etel n´elk¨uli szab´aly, amely ´ıt´eletr´esz´eben a leggyakoribb oszt´aly ´all.

Weka 3.5.7 _{A wek´}aban a 0R ´es 1R m´odszereket a weka.classifiers.rules.ZeroR ´es a weka.classifiers.rules.-OneR oszt´alyok implement´alj´ak. Az 1R m´odszer egyetlen param´etere a diszkretiz´al´as sor´an haszn´alt elemsz´am k¨usz¨ob.

6.6.4. A Prism m´ odszer

A Prism m´odszer [26] felt´etelezi, hogy a tan´ıt´o adatb´azisban nincs k´et olyan elem, amelynek a fontos magyar´az´o attrib´utumai megegyeznek, de m´as oszt´alyba tartoznak. Ha m´egis akadnak ilyen objektumok, akkor csak egyet tartsunk meg m´eghozz´a olyat, amelyik a leggyakrabban el˝ofordul´o oszt´alyba tartozik. A leggyakoribb oszt´alyt az azonos attrib´utum´ert´ekkel rendelkez˝o pontok k¨or´eben kell n´ezni. A Prism m´odszer afed˝o m´odszerek k¨oz´e tartozik.

A fed˝o algoritmus egyes´evel veszi az oszt´alyattrib´utum ´ert´ekeit ´es megpr´ob´al olyan szab´alyokat el˝o´all´ıtani, amelyek helyesen fedik azon tan´ıt´opontokat, amelyek a vizsg´alt oszt´alyba tartoznak. A szab´alyok el˝o´all´ıt´as´an´al a felt´etelr´eszhez adunk hozz´a egy-egy ´ujabb r´eszfelt´etelt t¨orekedve arra, hogy olyan r´eszfelt´etelt vegy¨unk, amely legnagyobb m´ert´ekben n¨oveli a pontoss´agot. A m´odszer hasonl´ıt a d¨ont´esi f´ak el˝o´all´ıt´as´ara (l´asd k¨ovetkez˝o fejezet) ott is a megl´ev˝o szab´alyhalmazhoz egy ´uj r´eszfelt´etelt adunk. D¨ont´esi szab´alyokn´al m´as a c´el;

pontoss´ag n¨ovel´ese helyett az oszt´alyok k¨oz¨otti szepar´aci´ot szeretn´enk maximaliz´alni.

A Prism menete a k¨ovetkez˝o. Egyes´evel sorra vessz¨uk az oszt´alyattrib´utum ´ert´ekeit. Min-den ´ert´ekn´el kiindulunk egy olyan d¨ont´esi szab´alyb´ol, amelynek felt´etelr´esze ¨ures, k¨ovet-kezm´enyr´esz´eben pedig az aktu´alis oszt´aly´ert´ek szerepel. Minden lehets´eges A attrib´utum, a

´ert´ek p´arra kisz´am´ıtjuk, hogy mennyi lenne a helytelen¨ul oszt´alyozott tan´ıt´opontok sz´ama, ha azA=a r´eszfelt´etelt adn´ank a felt´etelr´eszhez. Azt a r´eszfelt´etelt v´alasztjuk, amely a legkisebb relat´ıv fed´esi hib´at ad´o szab´alyt eredm´enyezi. A r´eszfelt´etelek hozz´aad´as´at addig folytatjuk, am´ıg olyan szab´alyt kapunk, amelynek nem nulla a fed´ese, de nulla a relat´ıv fed´esi hib´aja.

Ezut´an t¨or¨olj¨uk a tan´ıt´opontok k¨oz¨ul azokat, amelyeket az ´ujonnan el˝o´all´ıtott szab´aly le-fed. Ha nincs t¨obb olyan tan´ıt´opont, amelynek oszt´alyattrib´utuma az aktu´alis oszt´aly´ert´eket veszi fel, akkor a k¨ovetkez˝o attrib´utum´ert´eket vessz¨uk a k¨ovetkezm´enyr´eszbe. Az algoritmus pszeudok´odja a 8 ´abr´an olvashat´o.

A Prism algoritmus alkotta szab´alyokat szab´alysorozatk´ent c´elszer˝u ´ertelmezni. A m´odszer mindig olyan szab´alyokat hoz l´etre, amely lefed n´eh´any tan´ıt´opontot. A k¨ovetkez˝o szab´aly a marad´ek tan´ıt´opontokra sz´ol ez´ert ´uj objektum oszt´alyoz´asakor akkor s¨uss¨uk el, ha az el˝oz˝o szab´alyt nem tudtuk illeszteni. A Prism algoritmusra, mintseparate and conquer (lev´alaszt majd lefed) m´odszerre szoktak hivatkozni. A Prism el˝osz¨or lev´alasztja a tan´ıt´opontok egy csoportj´at, majd megpr´ob´alja lefedni azokat szab´alyokkal.

A Prism csak 100%-os pontoss´ag´u szab´alyokat ´all´ıt el˝o. Az ilyen egzakt szab´alyok mindig a t´ultanul´as vesz´ely´et hordozz´ak magukban. Az ilyen szab´alyok sok felt´etelt tartalmaznak ´es

´altal´aban kev´es tan´ıt´opontot fednek. Hasznosabb lenne kisebb pontoss´ag´u, de t¨obb pontot fed˝o szab´alyokat el˝o´all´ıtani. A t¨ok´eletess´egre val´o t¨orekv´es a Prism egy vitathatatlan hib´aja.

Ha p´eld´aul egy felt´etel k´et meghosszabb´ıt´asa olyan, hogy az els˝o lefed 1000 pontot, de egyet negat´ıvan, a m´asik pedig csak egy pontot fed le (nyilv´an helyesen), akkor a Prism a m´asodik meghosszabb´ıt´ast fogja v´alasztani. Egy Prism v´altozat a φ n¨ovel´es´en´el a jel¨olt AND A =a taggal a relat´ıv fed´esi hiba helyett egy inform´aci´o nyeres´eg jelleg˝u ´ert´ekkel sz´amol. Jel¨olj¨uk a φ AND A=a→Y =yszab´alyt R-rel.

hiba* =cover⁺(R)·

log(Er(R))−log(Er(φ→Y =y)) .

Az inform´aci´onyeres´eg-alap´u Prism is addig b˝ov´ıti a felt´etelr´eszt, am´ıg nem siker¨ul 100%-os pontoss´ag´u szab´alyt el˝o´all´ıtani.

Osszehasonl´ıtva az inform´aci´onyeres´eg ´es a relat´ıv fed´esi hiba alapj´an el˝o´all´ıtott szab´alyokat¨ a k¨ovetkez˝oket mondhatjuk. A relat´ıv fed´esi hiba eset´en eleinte kis fed´es˝u szab´alyokat nyes le,

Algorithm 8Prism

Require: T : tan´ıt´opontok halmaza, Y: oszt´alyattrib´utum v´altoz´o,

for all y∈ oszt´alyattrib´utum ´ert´ekre do E← azy oszt´alyba tartoz´o tan´ıt´opontok φ← ∅

while E6=∅ do R←φ→Y =y while Er_T(R)6= 0 do

hiba ←1

for all (A, a) attrib´utum-´ert´ek p´arra do if Er(φ ANDA=a→Y =y)< hiba then

hiba ←Er(φ ANDA=a→Y =y) A∗ ←A

a∗ ←a end if end for

φ←φ ANDA∗=a∗ end while

T ← T \cover(R) end while

end for

hogy a kiv´eteleket jelent˝o tan´ıt´o pontokat lefedje. A komoly szab´alyokat a fut´as v´eg´ere hagyja.

Az inform´aci´onyeres´eg-alap´u m´odszer ford´ıtva m˝uk¨odik, a speci´alis eseteket a v´eg´ere hagyja.

Weka 3.5.7 _{A wek´}aban a Prism m´odszert a weka.-classifiers.rules.Prismoszt´aly implement´alja.

In document Magyar nyelv˝ u irodalom (Pldal 141-146)