• Nem Talált Eredményt

A Prism módszer

Osztályozás és regresszió

4.5. Döntési szabályok

4.5.4. A Prism módszer

A Prism módszer [Cendrowska, 1987] feltételezi, hogy a tanító adatbázisban nincs két olyan elem, amelynek a fontos magyarázó attribútumai megegyez-nek, de más osztályba tartoznak. Ha mégis akadnak ilyen objektumok, akkor csak egyet tartsunk meg méghozzá olyat, amelyik a leggyakrabban előforduló osztályba tartozik. A leggyakoribb osztályt az azonos attribútumértékkel

ren-delkező pontok körében kell nézni.

A Prism módszer afedő módszerek közé tartozik. A fedő algoritmus egyesé-vel veszi az osztályattribútum értékeit és megpróbál olyan szabályokat elő-ál-lí-ta-ni, amelyek helyesen fedik azon tanítópontokat, amelyek a vizsgált osztályba tartoznak. A szabályok előállításánál a feltételrészhez adunk hozzá egy-egy újabb részfeltételt törekedve arra, hogy olyan részfeltételt vegyünk, amely leg-nagyobb mértékben növeli a pontosságot. A módszer hasonlít a döntési fák előállítására (lásd következő fejezet), ott is a meglévő szabályhalmazhoz egy új részfeltételt adunk. Ugyanakkor a döntési szabályoknál más a cél; a ta-nítópontokra való illeszkedés növelése helyett az osztályok közötti szeparációt szeretnénk maximalizálni.

A Prism menete a következő. Egyesével sorra vesszük az osztályattribútum értékeit. Minden értéknél kiindulunk egy olyan döntési szabályból, amelynek feltételrésze üres, következményrészében pedig az aktuális osztályérték szere-pel. Minden lehetségesA attribútum,a érték párra kiszámítjuk, hogy mennyi lenne a helytelenül osztályozott tanítópontok száma, ha az A=a részfeltételt adnánk a feltételrészhez. Azt a részfeltételt választjuk, amely a legkisebb rela-tív fedési hibát adó szabályt eredményezi. A részfeltételek hozzáadását addig folytatjuk, amíg olyan szabályt kapunk, amelynek nem nulla a fedése, de nulla a relatív fedési hibája.

Ezután töröljük a tanítópontok közül azokat, amelyeket az újonnan előál-lított szabály lefed. Ha nincs több olyan tanítópont, amelynek osztályattribú-tuma az aktuális osztályértéket veszi fel, akkor a következő attribútumértéket vesszük a következményrészbe. Az algoritmus pszeudokódja alább látható.

A Prism algoritmus alkotta szabályokat szabálysorozatként célszerű értel-mezni. A módszer mindig olyan szabályokat hoz létre, amely lefed néhány tanítópontot. A következő szabály a maradék tanítópontokra szól ezért új objektum osztályozásakor akkor süssük el, ha az előző szabályt nem tudtuk illeszteni. A Prism algoritmusra, mintseparate and conquer (leválaszt majd le-fed) módszerre szoktak hivatkozni. A Prism először leválasztja a tanítópontok egy csoportját, majd megpróbálja lefedni azokat szabályokkal.

A Prism csak 100%-os pontosságú szabályokat állít elő. Az ilyen egzakt sza-bályok mindig a túltanulás veszélyét hordozzák magukban, amellyel a későb-biekben részletesen foglalkozni fogunk. Az ilyen szabályok sok feltételt tar-talmaznak és általában kevés tanítópontot fednek. Hasznosabb lenne kisebb pontosságú, de több pontot fedő szabályokat előállítani. A tökéletességre való törekvés a Prism egy vitathatatlan hibája. Ha például egy feltétel két meg-hosszabbítása olyan, hogy az első lefed 1000 pontot, de egyet negatívan, a másik pedig csak egy pontot fed le (nyilván helyesen), akkor a Prism a máso-dik meghosszabbítást fogja választani. A Prism egyik változata a relatív fedési

hiba helyett egy információ nyereség jellegű értékkel számol a pszeudokódbeli ϕ bőv´tésénél. Tegyük fel, hogy azt kívánjuk eldönteni, hogy bővítsük-e a ϕ-t az AND A=ajelölt taggal. Jelöljük aϕ AND A=a→Y =yszabálytR-rel.

Ekkor a potenciális bővítés hibáját az alábbiak szerint számoljuk:

hiba*=cover+(R)·[

log(Er(R))log(Er(ϕ →Y =y))] .

Az eddigiekhez hasonlóan az információnyereség-alapú Prism is addig bővíti a feltételrészt, amíg nem sikerül 0 hibájú (100%-os pontosságú) szabályt előállítani.

Összehasonlítva az információnyereség és a relatív fedési hiba alapján elő-állított szabályokat a következőket mondhatjuk. A relatív fedési hiba esetén eleinte kis fedésű szabályokat nyes le, hogy a kivételeket jelentő tanító pontokat lefedje. A komoly szabályokat a futás végére hagyja. Az információnyereség-alapú módszer fordítva működik, a speciális eseteket a végére hagyja.

4.6. Döntési fák

A döntési fák alapötlete, hogy bonyolult összefüggéseket egyszerű döntések sorozatára vezet vissza. Egy ismeretlen minta klasszifikálásakor a fa gyökeréből kiindulva a csomópontokban feltett kérdésekre adott válaszoknak megfelelően addig lépkedünk lefelé a fában, amíg egy levélbe nem érünk. A döntést a levél címkéje határozza meg. Egy hipotetikus, leegyszerűsített, hitelbírálatra alkalmazható döntési fát mutat be a 4.12. ábra.9

A döntési fák nagy előnye, hogy automatikusan felismerik a lényegtelen változókat.10 Ha egy változóból nem nyerhető információ a magyarázott vál-tozóról, akkor azt nem is tesztelik. Ez a tulajdonság azért előnyös, mert így a fák teljesítménye zaj jelenlétében sem romlik sokat, valamint a probléma-megértésünket is nagyban segíti, ha megtudjuk, hogy mely változók fontosak, és melyek nem. Általában elmondható, hogy a legfontosabb változókat a fa a gyökér közelében teszteli. További előny, hogy a döntési fák nagyméretű adathalmazokra is hatékonyan felépíthetők.

A döntési fák egyik fontos tulajdonsága, hogy egy csomópontnak mennyi gyermeke lehet. Nyilvánvaló, hogy egy olyan fa, amely pontjainak kettőnél több gyermeke is lehet, mindig átrajzolható bináris fává. A legtöbb algoritmus ezért csak bináris fát tud előállítani.

9Az ábrázolt döntési fa sem értékítéletet, sem valós hitelbírálati szabályokat nem tükrőz, pusztán illusztráció.

10Elméletileg előfordulhat, hogyA1ésA2attribútumok (változók) önmagukban, egyenként függetlenek a magyarázandó változótól (osztályattribútumtól), de a kettőt együtt tekintve már nem függetlenek a magyarázandó változótól. Amint látni fogjuk, a legtöbb döntési fát építő algoritmusmohó, ezért az előbbi esetben nem feltétlenül sikerül felismerni, hogyA1 és A2releváns attribútumok.

4.12. ábra. Példa: döntési fa hitelbírálatra