D¨ont´esi szab´alyok - Funkcion´ alis ´ es k¨ ozel´ıt˝ o f¨ ugg˝ os´ egek 148

9. Funkcion´ alis ´ es k¨ ozel´ıt˝ o f¨ ugg˝ os´ egek 148

10.5. D¨ont´esi szab´alyok

10.2. defin´ıci´o. AzAattrib´utumhalmaz felett ´ertelmezett d¨ont´esi szab´aly alatt olyanR:φ(A)→ Y =y logika implik´aci´ot ´ert¨unk, amelyek felt´etelr´esz´eben attrib´utumokra vonatkoz´o felt´etelek logikai kapcsolatai ´allnak, a k¨ovetkezm´enyr´eszben pedig az oszt´alyattrib´utumra vonatkoz´o ´ıt´elet.

P´eld´aul a H}OM´ERS´EKLET = magas AND SZ´EL = nincs → ID}O J´AT´EKRA alkalmas egy d¨ont´esi szab´aly, amely azt fejezi ki, hogy ha magas a h˝om´ers´eklet ´es nincs sz´el, akkor az id˝o alkalmas k¨ult´eri j´at´ekra.

A val´osz´ın˝us´egi d¨ont´esi szab´alyokban a k¨ovetkezm´enyr´eszben az oszt´alyattrib´utumra vonat-koz´o val´osz´ın˝us´egi eloszl´as szerepel. Ilyen szab´alyra p´elda az aut´obiztos´ıt´as ter¨ulet´er˝ol, hogy nem = f´erfi AND gyerek sz´ama = 0 AND aut´o teljes´ıtm´eny ≤ 150LE → kock´azatos

= (80%, 20%).

A felt´etelr´eszben az ´es, vagy ´es a neg´aci´o tetsz˝oleges kombin´aci´oj´at felhaszn´alhatjuk . . . elvileg. A gyakorlatban ugyanis csak olyan szab´alyokkal foglalkoznak, amelyben egy

alap-felt´etel neg´aci´oja ´es a alap-felt´etelek ´es kapcsolatai szerepelnek. Ez az´ert nem olyan nagy meg-szor´ıt´as. Ha az azonos k¨ovetkezm´enyr´esszel rendelkez˝o szab´alyokb´ol egy szab´alyt k´esz´ıt¨unk

ugy, hogy a felt´etelek vagy kapcsolat´at k´epezz¨uk, akkor elmondhatjuk, hogy a szab´alyok felt´etelr´esz´eben diszjunkt´ıv norm´al formul´ak ´allnak. Minden ´ıt´eletlogik´aban megadott formu-la ´at´ırhat´o diszjunkt´ıv norm´al formul´av´a a dupformu-la neg´aci´o elimin´al´as´aval, a de Morgan ´es a disztributivit´asi szab´aly alkalmaz´as´aval.

10.3. defin´ıci´o. Az R:φ(A)→Y =y szab´alyra illeszkedik az X objektum, ha a felt´etelr´esz attrib´utumv´altoz´oiba az X megfelel˝o ´ert´ekeit helyettes´ıtj¨uk, akkor igaz ´ert´eket kapunk.

Amennyiben a szab´aly k¨ovetkezm´enyr´esze is igazra ´ert´ekel˝odik az objektumon, akkor a szab´aly fenn´all vagy igaz az objektumon.

10.4. defin´ıci´o. AzR:φ(A)→Y =yszab´aly lefedi azXobjektumhalmazt, ha minden objektum illeszkedik a szab´alyra. Adott T tan´ıt´o halmaz eset´en az R ´altal fedett tan´ıt´opontok halmaz´at coverT(R)-rel jel¨olj¨uk.

Helyesen fedi az X halmazt az R:φ(A)→Y =y szab´aly, ha R fedi X-et ´es a halmaz ¨osszes objektuma azyoszt´alyba tartozik. Ellenkez˝o esetbenhelytelen fed´esr˝ol vagy egyszer˝ubben rossz oszt´alyoz´asr´ol besz´el¨unk. A T-ben az R ´altal helyesen fedett pontok halmaz´at cover⁺T(R)-rel jel¨olj¨uk (a helytelen¨ul fedettek´et pedig cover⁻T(R)-rel).

10.5. defin´ıci´o. Az R szab´aly relat´ıv fed´esi hib´aja megegyezik a rosszul oszt´alyozott pontok sz´am´anak a fedett tan´ıt´opontokhoz vett ar´any´aval, teh´at

ErT(R) = cover⁻T(R) coverT(R) . D¨ont´esi szab´alyok kifejez˝oereje

Kifejez˝o erej¨uk szempontj´ab´ol a d¨ont´esi szab´alyok k¨ovetkez˝o t´ıpusair´ol besz´el¨unk :

´ıt´etelkalkulus-alap´u d¨ont´esi szab´aly A felt´etelr´eszben predik´atumok logikai kapcsolata ´all (´ıt´eletkalkulus egy formul´aja, amelyben nem szerepelnek a → ´es ←→ m˝uveleti jelek).

Minden predik´atum egy attrib´utumra vonatkozik. Amennyiben az attrib´utum kateg´oria t´ıpus´u, akkor A =a vagy A ∈A alak´u a felt´etel, ahol a egy konstans, A pedig az A

´ert´ekk´eszlet´enek egy r´eszhalmaza. Sorrend vagy intervallum t´ıpus´u attrib´utum eset´eben emellett A≤a ´es a⁰≤A≤a⁰⁰ szab´alyokat is megenged¨unk.

Az algoritmusok t¨obbs´ege csak olyan egyszer˝u formul´akat tud el˝o´all´ıtani, amelyekben a predik´atumok ´es kapcsolatai ´allnak, p´eld´aulMAGASS´AG ≤170 AND HAJSZ´IN = barna AND SZEMSZ´IN ∈ {k´ek, z¨old}.

A csak ´ıt´eletkalkulus-alap´u szab´alyokat tartalmaz´o d¨ont´esi szab´alyokat/f´akat univariate (egyv´altoz´os) d¨ont´esi szab´alyoknak/f´aknak h´ıvjuk.

rel´aci´o-alap´u d¨ont´esi szab´aly Ha halmazelm´eleti szemmel n´ezz¨uk a predik´atumokat, akkor az attrib´utumokra vonatkoz´o predik´atumot nevezhet¨unk bin´aris rel´aci´onak, amelynek egyik tagja egy v´altoz´o, m´asik tagja egy konstans. A rel´aci´o-alap´u d¨ont´esi szab´alyokban a m´asodik tag attrib´utumv´altoz´o is lehet. Itt p´eld´aul a hajsz´ın = szemsz´ın vagy

a sz´eless´eg < magass´ag megengedett felt´etelek. A rel´aci´o-alap´u szab´alyokat tartal-maz´o d¨ont´esi szab´alyokat/f´akat multivariate (t¨obbv´altoz´os) d¨ont´esi szab´alyoknak/f´aknak h´ıvjuk. A rel´aci´o alap´u d¨ont´esi szab´alyoknak nem nagyobb a kifejez˝o erej¨uk, amennyiben az attrib´utumok ´ert´ek´eszlete v´eges. Ekkor ugyanis egy rel´aci´os szab´aly helyettes´ıthet˝o sok egyv´altoz´os szab´alyp´arral. A fenti p´elda megfelel˝oje a hajsz´ın = barna AND szemsz´ın

= barna, hajsz´ın = k´ek AND szemsz´ın = k´ek, hajsz´ın = m´alyva AND szemsz´ın = m´alyva szab´alyokkal.

indukt´ıv logikai programoz´as P´eldak´ent tegy¨uk fel, hogy ´ep´ıt˝oelemek egy kupac´at to-ronynak h´ıvjuk, amelynek legfels˝o elem´ere a cs´ucs, a marad´ek elemekre pedig a marad´ek attrib´utummal hivatkozunk. A sz´eless´eg < magass´ag → ALAK = ´all´o szab´alyt ´ugy is ´ırhatjuk, hogy sz´eless´eg(´ep´ıt}oelem) < magass´ag(´ep´ıt}oelem) →

all´o(´ep´ıt}oelem). S˝ot a szab´alyt tov´abb is bonyol´ıthatjuk : sz´eless´eg(torony.top) <

magass´ag(torony.cs´ucs) AND ´all´o(torony.marad´ek) → ´all´o(torony). Ez egy re-kurz´ıv kifejez´es, amely szerint egy torony akkor ´all´o, ha a legfels˝o elem magass´aga na-gyobb a sz´eless´eg´en´el ´es a marad´ek elem ´all´o. A rekurzi´ot le kell z´arni :torony = ¨ures →

all´o(torony). A rekurz´ıv szab´alyoknak nagyobb a kifejez˝oerej¨uk, mint a rel´aci´o-alap´u d¨ont´esi szab´alyhalmaznak, hiszen kifejetve tetsz˝oleges sz´am´u predik´atumot tartalmazhat-nak. A rekurz´ıv szab´alyokat is tartalmaz´o szab´alyhalmazt logikai programnak nevezz¨uk, ezekkel tov´abbiakban nem foglalkozunk.

10.5.1. Szab´ aly halmazok ´ es szab´ aly sorozatok

Besz´el¨unk szab´aly halmazr´ol ´es szab´alyok sorozat´ar´ol. Halmazok eset´en a szab´alyok f¨ ugget-lenek egym´ast´ol. A szab´alyhalmaz egy´ertelm˝u, ha tetsz˝oleges objektum csak egy szab´alyra il-leszkedik.

Sorozat eset´eben egy ´uj objektum oszt´alyattrib´utum´anak j´osl´as´an´al egyes´evel sorra vessz¨uk a szab´alyokat eg´eszen addig, am´ıg olyat tal´alunk, amelyre illeszkedik az objektum. Ennek a szab´alynak a k¨ovetkezm´enyr´esze adja meg az oszt´alyattrib´utum ´ert´ek´et.

Egy szab´alyrendszer (sorozat vagy halmaz) teljes, ha tetsz˝oleges objektum illeszthet˝o egy szab´alyra. Ez k¨oznyelven azt jelenti, hogy az oszt´alyoz´o minden esetben (tetsz˝oleges oszt´alyozando elemre) d¨ont´est hoz. Sorozatok eset´eben a teljess´eget ´altal´aban az utols´o, ´un.

alap´ertelmezett szab´aly biztos´ıtja, amelynek felt´etelr´esze ¨ures, teh´at minden objektum illeszke-dik r´a.

”Kaliforniai kutat´ok szerint a ma-rihu´ana egyik ¨osszetev˝oje blokkol-ni k´epes a mellr´ak sz´etterjed´es´et a szervezetben.” Forr´as : http://

velvet.hu/blogok/gumicukor/

tags/kutat\%C3\%A1s Szab´alysorozat eset´eben nem kell besz´eln¨unk

egy´ertelm˝us´egr˝ol, hiszen t¨obb szab´alyra val´o illesz-ked´es eset´en egy´ertelm˝u a legels˝o illeszked˝o. A szab´alyok k¨oz¨otti sorrend (vagy m´ask´epp priorit´as) biztos´ıt´as´aval ker¨ulj¨uk el azt a probl´em´at, hogy milyen d¨ont´est hozzunk, ha egy objektumra t¨obb, k¨ul¨onb¨oz˝o k¨ovetkezm´enyr´esszel rendelkez˝o szab´aly illeszkedik.

Sajnos a sorrend defini´al´as´anak ´ara van. Szab´alyhalmaz eset´en ugyanis minden szab´aly a tud´asunk egy t¨ored´ek´et

r¨ogz´ıti. Sorozatok eset´eben azonban egy szab´alyt nem emelhet¨unk ki a k¨ornyezet´eb˝ol ; egy R szab´aly csak akkor s¨uthet˝o el, ha az R-et megel˝oz˝o szab´alyok felt´etelr´eszei nem teljes¨ulnek.

10.5.2. D¨ ont´ esi t´ abl´ azatok

A d¨ont´esi t´abl´azat minden oszlopa egy attrib´utumnak felel meg, az utols´o oszlop az oszt´alyattrib´utumnak. Az Aattrib´utumhoz tartoz´o oszlopban azA´ert´ek´ere vonatkoz´o felt´etel szerepelhet, leggyakrabbanA=aalakban (´ıt´etelkalkulus-alap´u d¨ont´esi szab´aly). A t´abl´azat egy sora egy d¨ont´esi szab´alyt r¨ogz´ıt. Ha az attrib´utumok a sorban szerepl˝o felt´eteleket kiel´eg´ıtik, ak-kor az oszt´alyattrib´utum ´ert´eke megegyezik a sor utols´o elem´enek ´ert´ek´evel. El´eg a elm´eletb˝ol, l´assunk egy p´eld´at :

id˝oj´ar´as h˝om´ers´eklet p´aratartalom sz´el j´at´ekid˝o?

napos meleg magas nincs nem

napos meleg magas van nem

bor´us meleg magas nincs nem

es˝os enyhe magas nincs igen

es˝os hideg magas nincs igen

D¨ont´esi t´abl´ak el˝o´all´ıt´as´an´al a k¨ovetkez˝o k´erd´eseket kell tiszt´azni :

I. Az attrib´utumok melyik r´eszhalmaz´at ´erdemes kiv´alasztani ? Ide´alis az lenne, ha minden r´eszhalmazt ki tudn´ank ´ert´ekelni ´es kiv´alasztani azt, amelyik a legkisebb hib´at (rosszul oszt´alyozott tan´ıt´opontok sz´ama) adja. A gyakorlatban azonban az attrib´utumok sz´ama nagy ez´ert az ¨osszes r´eszhalmaz kipr´ob´al´asa sok id˝obe telik.

II. Hogyan kezelj¨uk a folytonos attrib´utumokat ? A fenti p´eld´aban a h˝om´ers´ekletet diszkre-tiz´altuk. Meleg az id˝o, ha 25 fokn´al t¨obb van, alatta enyhe 5 fokig. Ha a h˝om´ers´eklet 5 fok al´a megy, akkor hideg van. Ide´alis az lenne, ha a folytonos attrib´utumokat az algoritmus automatikusan tudn´a diszkretiz´alni.

10.5.3. Az 1R algoritmus

Tal´an a legegyszer˝ubb oszt´alyz´o algoritmus az 1R. Kiv´alaszt egy attrib´utumot ´es az oszt´alyoz´asban kiz´ar´olag ezt haszn´alja. Annyi szab´alyt ´all´ıt el˝o, ah´any ´ert´eket felvesz a kiv´alasztott attrib´utum a tan´ıt´ohalmazban. Az A=a→Y =cszab´aly k¨ovetkezm´enyr´esz´eben szerepl˝o c oszt´aly a legt¨obbsz¨or el˝ofordul´o oszt´aly az A attrib´utum´aban a ´ert´eket felvev˝o tan´ıt´omint´ak k¨oz¨ul.

Nyilv´anval´o, hogy az 1R egy´ertelm˝u szab´alyhalmazt ´all´ıt el˝o.

Minden attrib´utum´ert´ekhez meg tudjuk hat´arozni a rosszul oszt´alyozott tan´ıt´opontok sz´am´at. Ha ¨osszeadjuk az A attrib´utum ´ert´ekeihez tartoz´o rosszul oszt´alyoz´o tan´ıt´opontok sz´am´at, akkor megkapjuk, hogy mennyi tan´ıt´opontot oszt´alyozn´ank rosszul, ha az A att-rib´utum lenne a kiv´alasztott. A legkevesebb rosszul oszt´alyozott tan´ıt´opontot ad´o attrib´utumot v´alasztjuk oszt´alyz´o attrib´utumnak. Hi´anyz´o attrib´utum´ert´ekeket ´ugy kezelj¨uk, mintha az att-rib´utumnak lennek egy k¨ul¨onleges, a t¨obbit˝ol elt´er˝o ´ert´eke.

Sorrend ´es intervallum t´ıpus´u attrib´utumn´al A ≤ a, a⁰ ≤ A < a⁰⁰ ´es a⁰⁰⁰ ≤ A t´ıpus´u szab´alyokat c´elszer˝u el˝o´all´ıtani. Ehhez csoportos´ıtsuk az egym´ast k¨ovet˝o ´ert´ekeket ´ugy, hogy a

hozz´ajuk tartoz´o oszt´aly´ert´ek szempontj´ab´ol homog´en csoportokat hozzanak l´etre (erre diszk-retiz´al´ask´ent is hivatkozunk). K¨ovetkez˝o p´eld´ankban az id˝oj´ar´as adatb´azis h˝om´ers´eklet att-rib´utum´at v´alasztjuk ki. A tan´ıt´omint´aban az egyes h˝om´ers´ekletekhez (Fahrenheitban m´erve) a k¨ovetkez˝o oszt´aly´ert´ekek tartoznak :

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

Egy lehets´eges csoportos´ıt´as szerint nyolc csoportot hozn´ank l´etre :

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

A hat´arokat a felez˝opontokban megv´alasztva a k¨ovetkez˝o hat´arokat hozn´ank l´etre : 64.5, 66.5, 70.5, 72, 77.5, 80.5, 84. A probl´em´at persze az okozza, hogy a 72-es ´ert´ekhez egyszerre tartozik 1-es ´es 0-´as attrib´utum´ert´ek. Egy megold´as ebben az esetben, hogy a 72-es hat´art ´athelyezz¨uk 73.5-re. Az 70.5≤H ˝OM´ERS´EKLET≤73.5 felt´etelr´eszhez tartoz´o szab´aly k¨ovetkezm´enyr´esz´ehez a 0 ´ert´eket rendelj¨uk, hiszen ebben az intervallumban a 0-´as oszt´aly´ert´ekkel rendelkez˝okb˝ol van a legt¨obb.

S´ulyosabb probl´ema, hogy az 1R az olyan attrib´utumokat kedveli, amelyek sok ´ert´eket vesz-nek fel. Sz´els˝os´eges p´elda lehet, amikor az azonos´ıt´o attrib´utumot is figyelembe veszi az algorit-mus. Az azonos´ıt´o nyilv´an nulla hib´at fog eredm´enyezni, de az azonos´ıt´o szerinti oszt´alyoz´asnak nincs sok ´ertelme (t¨ok´eletes p´eld´aja a t´ultanul´asnak).

A probl´em´at ´ugy szokt´ak kik¨usz¨ob¨olni, hogy a sorrend t´ıpus´u attrib´utumn´al el˝o´ırj´ak, hogy egy csoportba legal´abb mennyi ´ert´ek ker¨ulj¨on. Ha ez a minimum ´ert´ek h´arom, akkor a k¨ovetkez˝o csoportokat hozzuk l´etre.

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

Amikor a szomsz´edos csoportokban megegyezik a legt¨obbsz¨or el˝ofordul´o oszt´aly´ert´ek, akkor a k´et csoport k¨oz¨otti hat´art elt¨or¨olhetj¨uk. Ez alapj´an csak k´et szab´alyt fogunk el˝o´all´ıtani : ha a h˝om´ers´eklet kisebb 77.5-n´el, akkor az oszt´alyattrib´utum ´ert´eke 1 k¨ul¨onben 0. Vegy¨uk ´eszre, hogy az utols´o csoporthoz ¨onk´enyesen rendelt¨uk a 0-´as oszt´aly´ert´eket. Ha nem ´ıgy tesz¨unk, akkor egy´altal´an nem jel¨ol¨unk ki hat´art ´es csak egy szab´aly lesz.

Hab´ar a sorrend ´es intervallum t´ıpus´u attrib´utum csoportos´ıt´as´an sokat lehet elm´elkedni az 1R m´odszer nem t´ul bonyolult. Egyszer˝us´ege ellen´ere el´eg j´ol muzsik´al a gyakorlatban. Egy meglep˝o cikkben [76] a szerz˝o arr´ol ´ırt, hogy az 1R sokkal jobb oszt´alyz´o algoritmus, mint azt hinn´enk. A szerz˝ok azon a 16 adatb´azison ´ert´ekelt´ek ki a k¨ul¨onb¨oz˝o oszt´alyoz´o m´odszereket – k¨ozt¨uk az 1R-t –, amelyeket a kutat´ok gyakran haszn´alnak cikkeikben. A diszkretiz´al´asn´al 3 helyett 6-ot haszn´alt, a m´odszereket kereszt-valid´aci´os elj´ar´assal hasonl´ıtotta ¨ossze. Az 1R zavarba ejt˝oen j´o helyen v´egzett, a pontoss´ag tekintet´eben alig maradt el az ´ujabb ´es j´oval bonyolultabb elj´ar´asokt´ol.

10.5.4. A Prism m´ odszer

A Prism m´odszer [31] felt´etelezi, hogy a tan´ıt´o adatb´azisban nincs k´et olyan elem, amelynek a fontos magyar´azand´o attrib´utumai megegyeznek, de m´as oszt´alyba tartoznak. Ha m´egis akad-nak ilyen objektumok, akkor csak egyet tartsuk meg m´eghozz´a olyat, amelyik a leggyakrabban

el˝ofordul´o oszt´alyba tartozik. A leggyakoribb oszt´alyt az azonos attrib´utum´ert´ekkel rendelkez˝o pontok k¨or´eben kell n´ezni. A Prism m´odszer a fed˝o m´odszerek k¨oz´e tartozik.

A fed˝o algoritmus egyes´evel veszi az oszt´alyattrib´utum ´ert´ekeit ´es megpr´ob´al olyan szab´alyokat el˝o´all´ıtani, amelyek helyesen fedik azon tan´ıt´opontokat, amelyek a vizsg´alt oszt´alyba tartoznak. A szab´alyok el˝o´all´ıt´as´an´al a felt´etelr´eszhez adunk hozz´a egy-egy ´ujabb r´eszfelt´etelt t¨orekedve arra, hogy olyan r´eszfelt´etelt vegy¨unk, amely legnagyobb m´ert´ekben n¨oveli a pontoss´agot. A m´odszer hasonl´ıt a d¨ont´esi f´ak el˝o´all´ıt´as´ara (l´asd k¨ovetkez˝o fejezet) ott is a megl´ev˝o szab´alyhalmazhoz egy ´uj r´eszfelt´etelt adunk. D¨ont´esi szab´alyokn´al m´as a c´el ; pontoss´ag n¨ovel´ese helyett az oszt´alyok k¨oz¨otti szepar´aci´ot szeretn´enk maximaliz´alni.

A Prism menete a k¨ovetkez˝o. Egyes´evel sorra vessz¨uk az oszt´alyattrib´utum ´ert´ekeit. Min-den ´ert´ekn´el kiindulunk egy olyan d¨ont´esi szab´alyb´ol, amelynek felt´etelr´esze ¨ures, k¨ovet-kezm´enyr´esz´eben pedig az aktu´alis oszt´aly´ert´ek szerepel. Minden lehets´eges A attrib´utum, a

´ert´ek p´arra kisz´am´ıtjuk, hogy mennyi lenne a helytelen¨ul oszt´alyozott tan´ıt´opontok sz´ama, ha azA=a r´eszfelt´etelt adn´ank a felt´etelr´eszhez. Azt a r´eszfelt´etelt v´alasztjuk, amely a legkisebb relat´ıv fed´esi hib´at ad´o szab´alyt eredm´enyezi. A r´eszfelt´etelek hozz´aad´as´at addig folytatjuk, am´ıg olyan szab´alyt kapunk, amelynek nem nulla a fed´ese, de nulla a relat´ıv fed´esi hib´aja.

Ezut´an t¨or¨olj¨uk a tan´ıt´opontok k¨oz¨ul azokat a szab´alyokat, amelyeket az ´ujonnan el˝o´all´ıtott szab´aly lefed. Ha nincs t¨obb olyan tan´ıt´opont, amelynek oszt´alyattrib´utuma az aktu´alis oszt´aly´ert´eket veszi fel, akkor a k¨ovetkez˝o attrib´utum´ert´eket vessz¨uk a k¨ovetkezm´enyr´eszbe.

Az algoritmus pszeudok´odja a 8 ´abr´an olvashat´o.

Algorithm 8Prism

Require: T : tan´ıt´opontok halmaza, Y: oszt´alyattrib´utum v´altoz´o,

for all y∈ oszt´alyattrib´utum ´ert´ekre do E← azy oszt´alyba tartoz´o tan´ıt´opontok φ← ∅

while E6=∅ do R←φ→Y =y while Er_T(R)6= 0 do

hiba ←1

for all (A, a) attrib´utum-´ert´ek p´arra do if Er(φ ANDA=a→Y =y)< hiba then

hiba ←Er(φ ANDA=a→Y =y) A∗ ←A

a∗ ←a end if end for

φ←φ ANDA∗=a∗ end while

T ← T \cover(R) end while

end for

A Prism algoritmus alkotta szab´alyokat szab´alysorozatk´ent c´elszer˝u ´ertelmezni. A m´odszer mindig olyan szab´alyokat hoz l´etre, amely lefed n´eh´any tan´ıt´opontot. A k¨ovetkez˝o szab´aly a

marad´ek tan´ıt´opontokra sz´ol ez´ert ´uj objektum oszt´alyoz´asakor akkor s¨uss¨uk el, ha az el˝oz˝o szab´alyt nem tudtuk illeszteni. A Prism algoritmusra, mintseparate and conquer (lev´alaszt majd lefed) m´odszerre szoktak hivatkozni. A Prism el˝osz¨or lev´alasztja a tan´ıt´opontok egy csoportj´at, majd megpr´ob´alja lefedni azokat szab´alyokkal.

A Prism csak 100%-os pontoss´ag´u szab´alyokat ´all´ıt el˝o. Az ilyen egzakt szab´alyok mindig a t´ultanul´as vesz´ely´et hordozz´ak magukban. Az ilyen szab´alyok sok felt´etelt tartalmaznak ´es

´altal´aban kev´es tan´ıt´opontot fednek. Hasznosabb lenne kisebb pontoss´ag´u, de t¨obb pontot fed˝o szab´alyokat el˝o´all´ıtani. A t¨ok´eletess´egre val´o t¨orekv´es a Prism egy vitathatatlan hib´aja.

Ha p´eld´aul egy felt´etel k´et meghosszabb´ıt´asa olyan, hogy az els˝o lefed 1000 pontot, de egyet negat´ıvan, a m´asik pedig csak egy pontot fed le (nyilv´an helyesen), akkor a Prism a m´asodik meghosszabb´ıt´ast fogja v´alasztani. Egy Prism v´altozat a φ n¨ovel´es´en´el a jel¨olt AND A =a taggal a relat´ıv fed´esi hiba helyett egy inform´aci´o nyeres´eg jelleg˝u ´ert´ekkel sz´amol. Jel¨olj¨uk a φ AND A=a→Y =y szab´alyt R-rel.

hiba* =cover⁺(R)·

log(Er(R))−log(Er(φ→Y =y)) .

Az inform´aci´onyeres´eg-alap´u Prism is addig b˝ov´ıti a felt´etelr´eszt, am´ıg nem siker¨ul 100%-os pontoss´ag´u szab´alyt el˝o´all´ıtani.

Osszehasonl´ıtva az inform´aci´onyeres´eg ´es a relat´ıv fed´esi hiba alapj´an el˝o´all´ıtott szab´alyokat¨ a k¨ovetkez˝oket mondhatjuk. A relat´ıv fed´esi hiba eset´en eleinte kis fed´es˝u szab´alyokat nyes le, hogy az kiv´eteleket jelent˝o tan´ıt´o pontokat lefedje. A komoly szab´alyokat a fut´as v´eg´ere hagyja.

Az inform´aci´onyeres´eg-alap´u m´odszer ford´ıtva m˝uk¨odik, a speci´alis eseteket a v´eg´ere hagyja.

In document 1.1. Legjelent˝ osebb adatb´ any´ aszati feladatok (Pldal 170-176)