• Nem Talált Eredményt

A korrel´aci´o nem jelent implik´aci´ot

In document Magyar nyelv˝ u irodalom (Pldal 112-0)

4. Gyakori elemhalmazok 61

5.6. A korrel´aci´o nem jelent implik´aci´ot

A t´amogatotts´ag ´es a fontosabb ´erdekess´egi mutat´ok (χ2-pr´obastatisztika, p-´ert´ek) szim-metrikus f¨uggv´enyek, nem veszik figyelembe, hogy melyik term´ekhalmaz szerepel a szab´aly felt´etelr´esz´eben ´es melyik a szab´aly k¨ovetkezm´enyr´esz´eben. A bizonyoss´ag az egyetlen aszim-metrikus f¨uggv´eny, amely meghat´arozza a szab´aly ir´any´at. Az asszoci´aci´os szab´alyokban a nyilat haszn´aljuk az ir´any kijel¨ol´es´ere. Ez nagyon rossz d¨ont´es volt ´es rengeteg hamis k¨ovetkeztet´esnek adott alapot.

Ha megvizsg´aljuk az asszoci´aci´os szab´alyok h´arom param´eter´et, akkor r´aj¨ohet¨unk, hogy egyik param´eter sem jelent okozatis´agot. A f¨uggetlens´egi param´eter csak azt mondja meg, hogy a felt´etelr´esz nem f¨uggetlen a k¨ovetkezm´enyr´eszt˝ol. Okozatis´agr´ol sz´o sincs. Biztosan csak azt

´all´ıthatjuk, hogy nincs okozatis´agi viszony olyan jelens´egek k¨oz¨ott, amelyek k¨oz¨ott korrel´aci´o sem ´all fenn (azaz f¨uggetlenek). A korrel´aci´o ´es az okozatis´ag ¨osszekever´ese nagyon gyakori hiba, amelyre a latincum hoc ergo propter hoc(magyarul : vele, ez´ert miatta) kifejez´essel hivatkoznak.

Ha A ´es B k¨oz¨ott korrel´aci´o van, akkor lehet, hogy A okozza B-t, de lehet, hogy m´asf´ele kapcsolat ´all fenn k¨ozt¨uk. Az is lehet, hogy

I. B okozza A-t.

II. egy harmadik C jelens´eg okozza A-t ´es B-t is. Az okozatis´agi viszonyok enn´el j´oval bo-nyolultabb lehetnek.

III. lehet, hogy a korrel´aci´ot v´eletlenek k¨ul¨on¨os egy¨utt´all´asa okozza. Eml´ekezz¨unk, hogy a statisztikai tesztek sosem mondanak teljes bizonyoss´aggal semmit. Az els˝ofaj´u hiba adja meg annak es´ely´et, hogy mi azt ´all´ıtjuk, hogy k´et esem´eny k¨oz¨ott ¨osszef¨ugg´es ´all fenn, holott azok f¨uggetlenek egym´ast´ol.

IV. A´es B egym´ast is okozhatj´ak k¨olcs¨on¨osen meger˝os´ıt˝o m´odon.

N´ezz¨unk n´eh´any p´eld´at.

– Az egy cip˝oben alv´as er˝os ¨osszef¨ugg´esben ´all a fejf´aj´assal ´ebred´essel. Teh´at a cip˝oben alv´as fejf´aj´ast okoz. Nyilv´anval´oan hib´as ez a k¨ovetkeztet´es. Sokkal k´ezenfekv˝obb az a ma-gyar´azat, hogy az ittas ´allapot okozza mindk´et dolgot.

– A k¨ovetkez˝o ´all´ıt´as egy magyar kereskedelmi r´adi´oban hangzott el. Forr´asnak amerikai kutat´okat neveztek meg. A magassark´u cip˝o skizofr´eni´at okoz. Az ´all´ıt´as nyilv´an teljes bl˝ods´eg ´es csak az´ert hangzott el, hogy felkeltse a hallgat´ok figyelm´et.

– Az al´abbi ´all´ıt´as viszont a Nature magazinban hangzott el 1993-ban. Val´osz´ın˝ubb, hogy r¨ovidl´at´ok lesznek azok a gyerekek, akik ´eg˝o l´ampa mellett alszanak. K´es˝obbi kutat´asok kimutatt´ak, hogy val´oj´aban a sz¨ul˝ok r¨ovidl´at´asa ´es a gyerekek r¨ovidl´at´asa k¨oz¨ott van

¨osszef¨ugg´es tov´abb´a a r¨ovidl´at´o sz¨ul˝ok hajlamosabbak a l´amp´at ´egve hagyni, mint ´ugy

´altal´aban a sz¨ul˝ok.

Ha v´as´arl´oi kosarak elemz´es´ehez kanyarodunk vissza, akkor ezek szerint I →I0 nem az jelenti, hogy az I term´ek az I0 term´ek megv´as´arl´as´at okozza. Ha mind I, mind I0 megv´etel´et egy harmadik I00 term´eknek k¨osz¨onhetj¨uk, akkor csak p´enzt vesz´ıten´enk, ha az I term´ek ´ar´at cs¨okkenten´ek a I0-´et pedig n¨oveln´enk. Az I elad´as´anak n¨oveked´ese ugyanis nem okozza az I0 elad´as´at, teh´at nem nyern´enk vissza az I0-vel azI ´arcs¨okken´es´eb˝ol sz´armaz´o profitkies´est.

A val´os´agban a term´ekek csoportokat alkotnak, amelyekben a term´ekek elad´asa k¨olcs¨on¨osen meger˝os´ıtik egym´ast. P´eld´aul, ha vesz¨unk egy f´enyk´epez˝og´epet, akkor sokan mem´oriak´arty´at ´es tokot is vesznek. Ha okozati kapcsolatok csak a f´enyk´epez˝o →mem´oriak´artya ´es a f´enyk´epez˝o

→ tok lenn´enek, akkor matematikailag a f´enyk´epez˝o ´es a mem´oriak´artya elad´as´anak nem k´ene v´altoznia, ha a tok ´arus´ıt´as´at megsz¨untetn´enk. Legt¨obb¨unknek azonban igenis sz´am´ıt, hogy egy helyen lehet megv´as´arolni mindh´arom term´eket, ez´ert az elad´asok igenis cs¨okkenn´enek.

A f´enyk´epez˝og´ep, mem´oriak´artya ´es tok term´ekhalmaz egy olyan halmaz, amelynek elemei k¨olcs¨on¨osen meger˝os´ıtik egym´as elad´as´at.

Oszt´ alyoz´ as

6.1. Bevezet´ es

Ismeretlen, el˝ore nem megfigyelhet˝o v´altoz´ok, attrib´utumok ´ert´ek´enek el˝orejelz´ese m´as is-mert, megfigyelhet˝o v´altoz´ok, attrib´utumok ismeret´eben r´eg´ota akt´ıv kutat´as t´argy´at k´epezi.

A k´erd´es gyakorlati jelent˝os´eg´et neh´ez lenne t´ul´ert´ekelni. Ebben a fejezetben v´azlatosan ismer-tetj¨uk, hogy mik´ent alkalmazhat´ok a statisztika ´es g´epi tanul´as ter¨ulet´en kifejlesztett m´odszerek az adatb´any´aszatban1.

A megnevez´esek tiszt´az´asa ´erdek´eben el˝orebocs´atjuk, hogy a tanulm´anyban akkor besz´el¨unk el˝orejelz´esr˝ol (predikci´or´ol), ha a magyar´azott v´altoz´ot intervallum sk´al´an m´erj¨uk. Amennyi-ben a magyar´azott v´altoz´o diszkr´et ´ert´ekk´eszlet˝u, nomin´alis vagy ordin´alis sk´al´an m´ert, ak-kor oszt´alyoz´asr´ol vagy klasszifik´aci´or´ol (csoportba sorol´asr´ol) besz´el¨unk. Fogalmaink szerin-ti el˝orejelz´est ´es klasszifik´aci´ot a staszerin-tiszszerin-tikai irodalom ´altal´aban regresszi´osz´am´ıt´as, valamint diszkriminancia elemz´es ´es klasszifik´aci´o n´even illeti. A g´epi tanul´as ter¨ulet´en az elj´ar´asokat

¨osszefoglal´oan fel¨ugyelt tanul´asnak (supervised learning) nevezik.

Az adatb´any´aszatban leggyakrabban alkalmazott el˝orejelz˝o ´es klasszifik´al´o m´odszerek a k¨ovetkez˝ok :

I. Legk¨ozelebbi szomsz´ed m´odszerek II. D¨ont´esi szab´alyok, sorozatok ´es f´ak III. Line´aris ´es logisztikus regresszi´o IV. Mesters´eges neur´alis h´al´ozatok

V. SVM

VI. Naiv bayesi klasszifik´aci´o ´es bayesi h´al´ozatok

Mindegyik elj´ar´asr´ol elmondhat´o, hogy (legal´abb) k´et l´epcs˝oben m˝uk¨odik. El˝osz¨or az ´un. tan´ıt´o adatb´azison fel´ep´ıtj¨uk a modellt, majd k´es˝obb azt alkalmazzuk olyan ´uj adatokra, amelyeken a magyar´azott v´altoz´o ´ert´eke nem ismert, de ismerni szeretn´enk. Amikor el˝orejelz˝o, vagy klasszi-fik´al´o m´odszert v´alasztunk a k¨ovetkez˝o tulajdons´agait c´elszer˝u figyelembe venni :

1Ez a fejezet Sarl´os Tam´as ´es Bodon Ferenc k¨oz¨os munk´aja.

107

– El˝orejelz´es teljes´ıtm´enye : Milyen ´ert´ekes inform´aci´ot ad sz´amunkra a modell a nem meg-figyelhet˝o magyar´az´o v´altoz´or´ol (l´asd 6.2 szakasz) ?

– Gyorsas´ag : A modell el˝o´all´ıt´as´anak ´es haszn´alat´anak id˝oig´enye.

– Robusztuss´ag : ´Erz´ekeny-e a modell hi´anyz´o, vagy outlier adatokra.

– Sk´al´azhat´os´ag : Haszn´alhat´o-e a modell nagyon nagy adathalmazokra is ?

– ´Ertelmezhet˝os´eg : Kinyerhet¨unk-e az emberek sz´am´ara ´ertelmezhet˝o tud´ast a modell bels˝o szerkezet´eb˝ol ?

– Sk´ala-invariancia : A klaszterz´es lehetetlens´eg-elm´elet´et adapt´alva (l´asd 7.1 r´esz) sk´ala-invari´ansnak h´ıvunk egy oszt´alyoz´o elj´ar´ast, ha a m´odszer kimenete nem v´altozik abban az esetben, ha tetsz˝oleges intervallum t´ıpus´u magyar´az´o v´altoz´o helyett annak α > 0-szoros´at vessz¨uk.

” A ritk´abban borotv´alkoz´ok kor´abban halnak.” Forr´as : http:

//gondola.hu/cikkek/31731 Az adatb´any´asz k¨oz¨oss´eg legink´abb a kor´abban is

is-mert el˝orejelz˝o ´es klasszifik´al´o elj´ar´asok sk´al´azhat´os´ag´anak tov´abbfejleszt´es´eben ´ert el eredm´enyeket. K¨ul¨on¨osen a d¨ont´esi f´ak ter¨ulet´en fejlesztettek ki olyan algoritmusokat, amelyek ak´ar milli´os esetsz´am´u tanul´o adatb´azis eset´en is alkalmazhat´ok.

A fejezet h´atral´ev˝o r´esz´eben el˝osz¨or a klasszifik´al´ok ´es el˝orejelz˝ok teljes´ıtm´eny´enek

´ert´ekel´es´evel foglalkozunk, majd az elj´ar´asokat ismertetj¨uk. A hagyom´anyos statisztikai m´odszerek (diszkriminancia anal´ızis, line´aris regresszi´o, l´asd. pl. : [84] ismertet´es´et˝ol eltekint¨unk, helyett¨uk ink´abb az ,,egzotikusabbakra” koncentr´alunk : a d¨ont´esi f´ak, a mesters´eges neu-ronh´al´ozatok, a Bayes-h´al´ozatok, ´es n´egy tov´abbi elj´ar´as f˝obb jellemz˝oit mutatjuk be [89], [71], [61] ´es [118] ´ır´asok alapj´an.

Weka 3.5.7 A wek´aban az oszt´alyoz´o m´odszereket a Classify f¨ul¨on kereszt¨ul ´erj¨uk el.

6.2. Az oszt´ alyoz´ as feladata

Az oszt´alyoz´as sor´an n-esekkel (angolul tuple) fogunk dolgozni, amelyeket objektu-moknak/elemeknek h´ıvunk. Adott lesz objektumok sorozata (vagy zs´akja), amelyet tan´ıt´o mint´aknak, tan´ıt´o pontoknak, tan´ıt´o halmaznak (hab´ar a halmaz sz´o haszn´alata itt helyte-len, hiszen ugyanaz az objektum t¨obbsz¨or is el˝ofordulhat) nevez¨unk. Val´oj´aban tan´ıt´asra a tan´ıt´o pontok egy r´esz´et haszn´aljuk. A t¨obbi pont szerepe a tesztel´es lesz.

A j-edik elemet j-edik attrib´utumnak h´ıvjuk. Egy attrib´utumra n´evvel is hivatkozhatunk (pl. kor, magass´ag, sz´eless´eg attrib´utumok), nem csak sorsz´ammal. Minden attrib´utumnak saj´at

´ert´ekk´eszlete van. AzA attrib´utumv´altoz´on olyan v´altoz´ot ´ert¨unk, amely az A´ert´ekk´eszlet´eb˝ol vehet fel ´ert´ekeket.

Altal´anos m´odon egy klasszifik´al´o vagy el˝orejelz˝o m´odszer teljes´ıtm´eny´et v´arhat´o hasz-´ noss´ag´aval m´erhetj¨uk. Legyen a magyar´azand´o attrib´utumv´altoz´o Y, a magyar´az´o att-rib´utumv´altoz´o(k) pedig X, elj´ar´asunkat jel¨olj¨uk f-fel (Az f az X ´ert´ekk´eszlet´er˝ol az Y

´ert´ekk´eszlet´ere k´epez). Ekkor c´elunk E[U(Y, f(X))] maximaliz´al´asa, ahol U(y,by) jel¨oli az el˝orejelzett ybhasznoss´ag´at, mik¨ozben a val´odi ´ert´ek y. A feladatot ford´ıtva, minimaliz´al´ask´ent is megfogalmazhatjuk, ha U =−L valamilyen elker¨ult vesztes´eget m´er. Mivel a v´arhat´o ´ert´ek v´altoz´oiban addit´ıv ´es a konstanssal val´o eltol´as nem v´altoztat az optimaliz´al´ason, ez´ert L(y, y) = 0 feltehet˝o. A hib´at a gyakorlatban egy t´avols´agf¨uggv´ennyel defini´alj´ak (l´asd 3.2 r´esz). Amennyiben a magyar´azand´o v´altoz´o intervallum sk´al´an m´erhet˝o, akkor a legelterjed-tebb megold´as a n´egyzetes hiba alkalmaz´asa. Bin´arisY eset´enbin´aris oszt´alyoz´asr´ol besz´el¨unk.

Klasszifik´aci´o eset´en a fenti v´arhat´o ´ert´ek egyszer˝uen a t´eves d¨ont´esek val´osz´ın˝us´egekkel s´ulyozott ¨osszege. Ha a v´arhat´o ´ert´eket meghat´aroz´o val´odi eloszl´asokat ismern´enk, akkor meg-tal´alhat´o a legjobb el˝orejelz˝o / klasszifik´al´o. P´eld´aul (azonos kovarianci´aj´u) t¨obbdimenzi´os norm´alis eloszl´asokat felt´etelezve egyszer˝u kvadratikus (line´aris) d¨ont´esi szab´alyokat kapunk [165], [84]. Az eloszl´as param´etereit ´altal´aban m´eg akkor is becs¨uln¨unk kell, ha felt´etelezhet˝o / felt´etelez¨unk egy adott t´ıpus´u eloszl´as.

Az adatb´any´aszat ter¨ulet´en a normalit´as nem re´alis feltev´es (gondoljunk a sok nomin´alis v´altoz´ora). Az adatb´any´aszati m´odszerek nem ´elnek feltev´esekkel az eloszl´assal kapcsolatban.

” A grapefruit mindennapos fo-gyaszt´asa harmad´aval n¨ ovelhe-ti a mellr´ak vesz´ely´et – fi-gyelmeztetnek amerikai kutat´ok.”

Forr´as : http://www.macosz.hu/

grapefruit-daganat.html Ugyanakkor a m´odszerek ¨osszetetts´eg¨uk folyt´an – ha

hagyjuk ˝oket – k´epesek nem csak a tan´ıt´o adatb´azis szab´alyszer˝us´egeit, hanem a mintaadatokban l´ev˝o egye-di hib´akat ´es torz´ıt´asokat is megtanulni (ami kifejezetten k´aros). ´Igy ´altal´aban puszt´an a tan´ıt´o adatb´azis seg´ıts´eg´evel nem megalapozott a v´arhat´o haszon / k¨olts´eg nagys´ag´at megbecs¨ulni. Mennyire j´o egy oszt´alyoz´o m´odszer, amely 100% pontoss´agot ad a tan´ıt´o mint´akon, de 0%-ot a tesz-tel˝o adathalmazon ?

A t´ulzott modellbonyolults´ag elker¨ul´es´ere pl. : a regresszi´osz´am´ıt´as ter¨ulet´en modellszelek-ci´os krit´eriumok (m´odos´ıtottR2, Akaike Schwartz, stb.), illetve heurisztikus elj´ar´asok (stepwise regresszi´o) ´allnak rendelkez´esre. Az oszt´alyoz´o m´odszer ki´ert´ekel´es´er˝ol, illetve oszt´alyoz´ok ¨ossze-hasonl´ıt´as´ar´ol a 6.11 r´eszben ´ırunk b˝ovebben. Most l´assuk a legismertebb oszt´alyz´o m´odszereket.

6.3. Line´ arisan szepar´ alhat´ o oszt´ alyok

K´et oszt´aly line´arisan szepar´alhat´o, ha egy hipers´ık seg´ıts´eg´evel el tudjuk k¨ul¨on´ıteni a k´et oszt´aly pontjait. Amennyiben minden pontn dimenzi´oban van megadva, akkorn−1 dimenzi´os hipers´ıkot kell meghat´aroznunk. Ennek a hipers´ıknak a k´eplete :

w1a1+w2a2+. . .+wnan= 0.

Az oszt´alyoz´as feladata a w s´ulyok meghat´aroz´asa. Ha ez megvan, akkor j¨ohet az ´uj ele-mek oszt´alyoz´asa. Hat´arozzuk meg az ´uj elem attrib´utumainak w´ert´ekekkel t¨ort´en˝o s´ulyozott

¨osszeg´et. Ha az ¨osszeg nagyobb nulla, akkor az els˝o oszt´alyba tartozik, ellenkez˝o esetben a m´asodikba. Line´arisan szepar´alhat´o oszt´alyokra l´athatunk p´eld´at a 6.1 al´abbi ´abr´an.

A p´eld´ab´ol is l´atszik, hogy adott tan´ıt´oponthoz t¨obb hipers´ık is l´etezhet, amellyel kett´ev´alaszthatjuk az oszt´alyokat. Az SVM oszt´alyoz´on´al fog felmer¨ulni az a k´erd´es, hogy

me-6.1. ´abra. P´elda line´arisan szepar´alhat´o oszt´alyokra

lyik hipers´ık v´alasztja el a legjobban a k´et oszt´alyt, azaz melyik az a s´ık amelyik j´ol szepar´al ´es amelyt˝ol legt´avolabb vannak a pontok. Ebben a r´eszben olyan hipers´ıkot keres¨unk, amely egy-szer˝un csak j´ol szepar´al. A perceptron ´es a Winnow m´odszereket fogjuk szem¨ugyre venni. Ezek kiindulnak a kezdetben konstans ´ert´ekeket (perceptronn´al nulla, Winnown´al egy) tartalmaz´o s´ulyvektorb´ol ´es a tan´ıt´opontok hat´as´ara a s´ulyvektort addig m´odos´ıtj´ak, am´ıg minden pontot j´ol nem szepar´al a s´ulyvektor. A m´odszerek el˝onye, hogy j´ol haszn´alhat´o online k¨ornyezetben is, ahol n´eha ´uj tan´ıt´opont ´erkezik, amely hat´as´ara m´odos´ıtanunk kell a s´ulyvektort.

Ismertetj¨uk m´eg a Rocchi-elj´ar´ast, amely hab´ar nem ´all´ıt el˝o szepar´al´o hipers´ıkot m´egis line´aris szepar´al´ast hajt v´egre.

6.3.1. Perceptron tanul´ asi szab´ aly

A perceptron tanul´asi szab´aly a mesters´eges neur´alis h´al´ok ˝os´enek tekinthet˝o. Mind az n attrib´utumnak val´osnak kell lenni¨uk. A hipers´ık dimezi´oja n+ 1 lesz, ugyanis fel kell venn¨unk egy extra attrib´utumot (az angol irodalomban ezt bias-nak h´ıvj´ak), amelynek ´ert´eke minden tan´ıt´o pontn´al egy lesz. A m´odszer le´ır´asa al´abb olvashat´o.

Algorithm 7Perceptron tanul´asi szab´aly Require: T : tan´ıt´opontok halmaza

~

w= (0,0, . . . ,0)

while van rosszul oszt´alyozottt∈ T do for all minden ~t∈ T do

if ~trosszul van oszt´alyozva then if ~taz els˝o oszt´alyba tartozik then

~

w=w~+~t else

~

w=w~−~t end if end if end for end while

Amennyiben az algoritmus sor´an rosszul oszt´alyozott ponttal tal´alkozunk, akkor a ´ugy m´odos´ıtjuk a hipers´ıkot, hogy a rosszul oszt´alyozott tan´ıt´o pont k¨ozelebb ker¨ul hozz´a, s˝ot ak´ar

´at is ker¨ulhet a s´ık m´asik oldal´ara. Ha egy rosszul oszt´alyozott tan´ıt´o pont az els˝o oszt´alyba tartozik, akkor az attrib´utum ´ert´ekeinek s´ulyozott ¨osszege a m´odos´ıt´as sor´anP

witi-r˝olP (wi+ +ti)ti-re v´altozik. A k¨ul¨onb´eg, n´egyzet¨osszeg l´ev´en, biztosan pozit´ıv. A hipers´ık a m´odos´ıt´as sor´an helyes ir´anyba mozgott.

A hipers´ık m´odos´ıt´asai egym´asnak ellent´etesek lehetnek (olyan, mintha a tan´ıt´opontokt´ol jobbrol ´es balr´ol kapn´a a pofonokat), de szerencs´ere biztosak lehet¨unk benne, hogy a sok mo-dos´ıt´asnak el˝obb-ut´obb v´ege lesz :

6.1. lemma. Perceptron tanul´asi algoritmus v´eges l´epesen bel¨ul le´all, amennyiben az oszt´alyok line´arisan szepar´alhat´ok.

H´atr´any, hogy ha a tan´ıt´o pontok nem szepar´alhat´oak line´arisan, akkor az algoritmus nem ´all le.

A gyakorlatban ez´ert egy maxim´alis iter´aci´os sz´amot adnak meg, amelynek el´er´esekor sikertelen

¨

uzenettel le´all az algoritmus.

6.3.2. Winnow m´ odszer

Winnow m´odszer´et akkor alkalmazhatjuk, ha minden attrib´utum bin´aris. Az elt´er´es a per-ceptron tanul´ast´ol annyi csak, hogy a rossz oszt´alyoz´as eset´en a s´ulyvektorhoz nem hozz´aadjuk a tan´ıt´opont vektor´at, hanem a s´ulyvektor bizonyos elemeit megszorozzuk vagy eloszjuk α >1 konstanssal, att´ol f¨ugg˝oen, hogy melyik csoportba tartozik. Akkor sorol az oszt´alyoz´o egy ~a pontot az els˝o oszt´alyba, ha

w1a1+w2a2+. . .+wnan>Θ,

ahol Θ el˝ore megadott konstans. A szorz´ast vagy oszt´ast azokra a poz´ıci´oju elemre v´egezz¨uk amelyre a tan´ıt´opont vektora egyest tartalmaz.

Mivel α pozit´ıv ´es a kezdeti s´ulyvektor minden eleme egy, ez´ert a s´ulyvektor minden eleme mindig pozit´ıv marad. Vannak alkalmaz´asok, ahol negat´ıv s´ulyokat is meg kell engedni. Ekkor akiegyens´ulyozott Winnow (balanced Winnow) m´odszert alkalmazhatjuk. K´et s´ulyvektort tar-tunk karban (w~+, w~). Az oszt´alyoz´ashoz a w~+−w~ vektort haszn´aljuk. A rossz oszt´alyoz´as eset´en a w~+-t ugyan´ugy m´odos´ıtjuk, mint a Winnow alapverzi´oj´an´al, a w~ elemeit pedig pont ellenkez˝ok´eppen, amikor w+i-t szorozzuk α-val, akkor a wi-t osztjuk vele.

Weka 3.5.7 A Winnow, illetve a kiegyens´ulyozott Winnow m´odszert a wek´aban a weka.classifiers.functions.Winnow oszt´aly implement´alja. Abalanced param´eter igazra ´all´ıt´as´aval adhatjuk meg, ha kiegyens´ulyozott Winnow m´odszert szeretn´enk alkalmazni. A s´ulyok kezdeti ´ert´ek´et a defaultWeight param´eterrel, az iter´aci´ok sz´am´at a numIterationsparam´eterrel szab´alyozhatjuk. AΘparam´eter a wek´aban a treshold param´eternek felel meg.

X

6.2. ´abra. P´elda a Rocchio rossz oszt´alyoz´as´ara

6.3.3. Rocchio-elj´ ar´ as

A Rocchio-elj´ar´as klasszikus m´odszernek sz´am´ıt az inform´aci´o-visszakeres´es ter¨ulet´en.

Oszt´alyoz´asi feladatra el˝osz¨or a [79] munk´aban adapt´alt´ak, ´es az´ota is sok kutat´as foglalko-zott vele (ld. [152]. Az elj´ar´as felt´etelezi, hogy a minden attrib´utum val´os t´ıpus´u. Minden c kateg´ori´ahoz megalkotunk egyprotot´ıpusvektort, amit aDc tanul´op´eld´ak ´atlagak´ent sz´am´ıtjuk ki (centroid), ´es ehhez hasonl´ıtjuk az ismeretlen dokumentum vektor´at. Az oszt´alyozand´o objek-tum ´es egy kateg´oria protot´ıpusvektor´anak t´avols´ag´at koszinusz- vagy m´as t´avols´agm´ert´ekkel sz´amolhatjuk.

A m´odszernek kicsiny a sz´am´ıt´asig´enye, ez´ert a tanul´as nagyon gyors. H´atr´anya viszont, hogy rossz eredm´enyt ad, ha az egy oszt´alyba tartoz´o pontok nem jellemezhet˝ok egy vektorral (pl. am˝oba alap´u csoportok, vagy k´et, egym´ast´ol j´ol elk¨ul¨on¨ul˝o, csoporthalmaz, amelynek elemei ugyanabba a kateg´ori´aba tartoznak). Ezt szeml´elteti a 6.2 ´abra. Az ¨ures k¨or¨ok az els˝o, a feket´evel t¨olt¨ott k¨or¨ok a m´asodik oszt´alyba tartoznak. Az els˝o oszt´aly protot´ıpusvektora t´avol esik az

¨

ures k¨or¨okt˝ol. Az x-el jel¨olt oszt´alyozand´o pontot a Rocchio az els˝o oszt´alyba soroln´a a m´asodik helyett.

A m´odszer hat´ekonys´aga l´enyegesen jav´ıthat´o, ha a protot´ıpusvektorok megalkot´as´an´al a negat´ıv tanul´oadatokat is figyelembe vessz¨uk. Ekkor a

~c=β·X

j∈Dc

d~j−γ·X

j6∈Dc

d~j (6.1)

k´eplettel sz´am´ıthat´o a c protot´ıpusvektora2. Ha a m´asodik tagban nem az ¨osszes negat´ıv ta-nul´op´eld´at, hanem csak a majdnem pozit´ıv tanul´op´eld´ak ´atlag´at vessz¨uk — ezek ugyanis azok, amelyekt˝ol a legnehezebb megk¨ul¨onb¨oztetni a pozit´ıv tanul´oadatokat, akkor tov´abbi l´enyeges hat´ekonys´agi javul´as ´erhet˝o el [148, 179].

2A pontok centroidjak´ent sz´amolt protot´ıpusvektort aβ= 1,γ= 0 param´eterek mellett kapjuk meg.

6.3. ´abra. Tan´ıt´opontok a s´ıkon (bal oldali ´abra) ´es a Voronoi tartom´anyok (jobb oldali ´abra)

6.4. k-legk¨ ozelebbi szomsz´ ed m´ odszere

A k-legk¨ozelebbi szomsz´ed m´odszere egy ,,lusta” klasszifik´al´o elj´ar´as, amely nem ´ep´ıt mo-dellt. Alapelgondol´asa, hogy a hasonl´o attrib´utum´u objektumok hasonl´o tulajdons´agokkal b´ırnak. A hasonl´os´agot (igaz´ab´ol a k¨ul¨onb¨oz˝os´eget (l´asd 3.2. r´esz)) a klaszterelemz´esn´el is haszn´alt t´avols´agf¨uggv´ennyel m´erj¨uk. A tanul´o adatb´azist elt´aroljuk ´es amikor egy ismeret-len objektumot kell klasszifik´alnunk, akkor megkeress¨uk a t´avols´agf¨uggv´eny szerinti k darab legk¨ozelebbi pontot, ´es az objektumot abba a kateg´ori´aba soroljuk, amely a legt¨obbsz¨or el˝ofordul a k szomsz´ed k¨oz¨ott (t¨obbs´egi szavaz´as). A m´odszer egyfajta lok´alis s˝ur˝us´egf¨uggv´eny becsl˝o elj´ar´asnak is tekinthet˝o.

A legk¨ozelebbi szomsz´ed m´odszer ´abr´azol´as´an´al (k = 1 eset´en) kedvelt eszk¨oz a Voronoi

A legk¨ozelebbi szomsz´ed m´odszer ´abr´azol´as´an´al (k = 1 eset´en) kedvelt eszk¨oz a Voronoi

In document Magyar nyelv˝ u irodalom (Pldal 112-0)