• Nem Talált Eredményt

Bayesi h´al´ozatok

In document Magyar nyelv˝ u irodalom (Pldal 157-161)

6. Oszt´ alyoz´ as ´ es regresszi´ o 113

6.8. Bayesi h´al´ozatok

A Bayes h´al´ozatok k´et fontos elvre ´ep´ıtenek. A maximum likelihood szerint egy elem oszt´alyoz´as´an´al azt az oszt´alyt fogjuk v´alasztani, amelynek a legnagyobb a val´osz´ın˝us´ege a megfigyel´esek ´es az elem tov´abbi attrib´utumai alapj´an. A bayes-t´etel szerint pedig meg-hat´arozhatjuk a felt´eteles val´osz´ın˝us´eget, ha ismer¨unk n´eh´any m´asik val´osz´ın˝us´eget.

Weka 3.5.7 Sz´amos bayes-h´al´o alap´u m´odszer tal´alhat´o a weka.classifiers.bayescsomagban.

A Bayes-t´etel seg´ıts´eg´evel meghat´arozhat´o az optim´alis (l´asd 6.2. szakasz) klasszifik´aci´os szab´aly. Jel¨olj¨ukYi-vel azt, amikor a klasszifik´aland´o eset azi-edik oszt´alyba tartozik (Y =yi).

Az elemek megfigyelhet˝o tulajdons´agait az X vektor ´ırja le. Az egyszer˝us´eg kedv´e´ert a t´eved´es k¨olts´ege legyen minden esetben azonos. Ekkor egy ismeretlen, X tulajdons´ag´u p´eld´anyt abba az oszt´alyba (i) ´erdemes (optim´alis) sorolni, amelyikre P(Yi|X) maxim´alis. A Bayes-szab´aly alapj´an

P(Yi|X) = P(X, Yi)

P(X) =P(X|Yi)P(Yi) P(X) .

Mivel P(X) minden i-re konstans, ez´ert elegend˝o P(X|Yi)P(Yi)-t maximaliz´alni. P(Yi) vagy a priori adott, vagy pedig a mint´ab´ol a relat´ıv gyakoris´agokkal egyszer˝uen becs¨ulhet˝o. ´Igy m´ar ,,csak” P(X|Yi)-t k´ene meghat´arozni.

Amennyiben k darab bin´aris magyar´az´o attib´utumunk van, azY pedig ` ´ert´eket vehet fel, akkor `(2k−1) darabP(X|Yi) ´ert´eket kellene megbecs¨uln¨unk. A 3.3.7 r´eszben l´attuk, hogy egy val´osz´ın˝us´eg megbecsl´es´ehez relat´ıv gyakoris´aggal mennyi tan´ıt´opontot kell venn¨unk. A gyakor-lati esetek t¨obbs´eg´eben ennyi tan´ıt´opont nem ´all rendelkez´es¨unkre, ez´ert valamilyen felt´etellel kell ´eln¨unk a modell kapcs´an. A na´ıv bayes-h´al´ok felt´etelezik, hogy az egyes attrib´utumok felt´etelesen f¨uggetlenek egym´ast´ol.

6.8.1. Na´ıv Bayes-h´ al´ ok

A na´ıv bayes-h´al´ok olyan felt´etelez´essel ´elnek, amelynek seg´ıts´eg´evel a `(2k−1) darab meg-becs¨ulend˝o param´eter sz´ama `·k-ra cs¨okken.

6.14. defin´ıci´o. Legyen X, Y ´es Z h´arom val´osz´ın˝us´egi v´altoz´o. Az X felt´etelesen f¨uggetlen Y-t´ol adott Z eset´en, ha

P(X=xi|Y =yj, Z=zk) =P(X=xi|Z=zk) minden lehets´eges xi, yj, zk h´armasra.

Ha p´eld´aul az es}o, vihar, vill´aml´as diszkr´et val´osz´ın˝us´egi v´altoz´ot tekintj¨uk, akkor a vihar felt´etelesen f¨uggetlen az es}ot}ol, ha a vill´aml´ast ismerj¨uk. A vill´aml´as ugyanis vihart okoz (avill´aml´as hi´anya pedig azt jelenti nincs vihar), ez´ert azes}o t´enye semmilyen tov´abbi inform´aci´oval nem szolg´al a viharra vonatkoz´oan. Term´eszetesen van ¨osszef¨ugg´es a vihar ´es azes}o k¨oz¨ott, de nincs k¨ozt¨uk felt´eteles ¨osszef¨ugg´es, ha a vill´aml´as ´ert´ek´et ismerj¨uk.

A na´ıv Bayes klasszifik´al´o felt´etelez´ese szerint egy oszt´alyon bel¨ul az attrib´utumok felt´etelesen f¨uggetlenek egym´ast´ol. Ekkor a P(X|Y) val´osz´ın˝us´eg kifejezhet˝o a P(Xj|Y) val´osz´ın˝us´egek szorzatak´ent, hiszen

P(X1, X2|Yi) =P(X1|X2, Yi)P(X2|Yi) =P(X1|Yi)P(X2|Yi)

Az els˝o egyenl˝otlens´egn´el a val´osz´ın˝us´egek ´altal´anos tulajdons´ag´at haszn´altuk fel, a m´asodikn´al pedig a felt´eteles f¨uggetlens´eget. K¨onny˝u bel´atni, hogyk magyar´az´o v´altoz´o eset´en a k¨ovetkez˝ot kapjuk

P((X1, X2, . . . , Xk) = (x1, x2, . . . , xk)|Yi) = Yk

j=1

P(Xj=xj|Yi). A P(Xj=xj|Yi) val´osz´ın˝us´egek a mint´ab´ol becs¨ulhet˝ok.

kateg´oria t´ıpus´u attrib´utum

Amennyiben az Xj kateg´oria t´ıpus´u, akkor P(Xj=xj|Yi) val´osz´ın˝us´eget a relat´ıv gyakor-is´aggal k¨ozel´ıtj¨uk, teh´at meghat´arozzuk a relat´ıv ar´any´at az Xj attrib´utum´aban xj ´ert´eket felvev˝o elemeknek a Yi oszt´aly´u elemek k¨oz¨ott.

Probl´em´at jelent, ha valamelyik relat´ıv gyakoris´ag nulla, mert ekkor a szorzat is nulla lesz a t¨obbi tagt´ol f¨uggetlen¨ul. Legegyszer˝ubb megold´as, hogy az adott attrib´utum minden ´ert´ek´enek el˝ofordul´as´ahot hozz´aadunk egyet. Ha volt el´eg mint´ank, akkor a val´osz´ın˝us´egek alig torzulnak, viszont siker¨ul kik¨usz¨ob¨oln¨unk, hogy a nulla tag miatt a t¨obbi relat´ıv gyakoris´agot nem vessz¨uk figyelembe. Ha egy adott oszt´alyba tartoz´o elemek egy attrib´utuma h´arom ´ert´eket vehet fel

´es az el˝ofordul´asok: 0, 150, 250. Akkor 0, 150/400, 250/400 helyett 1/403, 151/403, 251/403

´ert´ekeket haszn´alunk. Erre a technik´ara az irodalomban, mintLaplace estimation hivatkoznak.

Egy kifinomultabb m´odszer, ha egy helyett pk-t adunk a relat´ıv gyakoris´aghoz, ahol pk-val jel¨olj¨uk a k-adik attrib´utum´ert´ek relat´ıv gyakoris´ag´at a teljes tan´ıt´ohalmazban (teh´at nem csak a Yi kateg´ori´aj´u tan´ıt´ohalmazban).

sz´am t´ıpus´u attrib´utum

Amennyiben Xj sz´am t´ıpus´u ´es tudjuk a P(Xj|Yi) eloszl´as´anak t´ıpus´at, akkor a keresett val´osz´ın˝us´eghez sz¨uks´eges eloszl´asparam´etereket statisztikai m´odszerrel becs¨ulj¨uk. Ha p´eld´aul norm´alis eloszl´assal van dolgunk, akkor el´eg meghat´aroznunk a v´arhat´o ´ert´eket ´es a sz´or´ast, ezekb˝ol tetsz˝oleges ´ert´ekhez tartoz´o val´osz´ın˝us´eg a s˝ur˝us´egf¨uggv´enyb˝ol k¨ozvetlen ad´odik. A v´arhat´o ´ert´eket a minta´atlaggal (empirikus k¨oz´ep: ¯Xij =P|Yi|

k=1xkij/|Yi|), a sz´or´asn´egyzetet a korrig´alt empirikus szor´asn´egyzettel (sij2 = P|Yi|

k=1(xkij−X¯j)2/(|Yi| −1)) becs¨ulj¨uk. A keresett val´osz´ın˝us´eget a

P(Xj =xj|Yi) = 1 sij

2πe(xjX¯ij)2/2s∗2ij

k´eplet adja.

Weka 3.5.7 weka.classifiers !bayes.NaiveBayesSimple A na´ıv Bayes oszt´alyoz´ot, amely a sz´am t´ıpus´u attrib´utumokn´al norm´alis eloszl´ast felt´etelez a weka.classifiers.bayes.NaiveBayesSimple oszt´aly implement´alja.

A weka.classifiers.bayes.NaiveBayes a norma-lit´asra tett felt´etelt enyh´ıti. Ez az oszt´alyoz´o un.´ kernel becsl˝ot haszn´al a keresett val´osz´ın˝us´egek meghat´aroz´as´ahoz.

Ha pedig a useSupervisedDiscretization param´etert igaz-ra ´all´ıtjuk, akkor a sz´am t´ıpus´u attrib´utumokat kateg´oria t´ıpus´uv´a alak´ıtja egy fel¨ugyelt diszkretiz´al´o m´odszerrel ( weka.filters.supervised.attribute.Discretize sz˝ur˝o l´asd a 48 oldal).

A nav Bayes oszt´alyoz´o h´atr´anyra, hogy az felt´eteles f¨uggetlens´eget ´es egyenl˝os´eget felt´etelez.

Sokat jav´ıthatunk a na´ıv Bayes oszt´alyoz´ok pontoss´ag´an, ha el˝ofeldolgoz´as sor´an meghat´arozzuk a fontos attrib´utumokat, teh´at azokat, amelyekr˝ol ´ugy gondoljuk, hogy nem f¨uggetlenek az oszt´alyattrib´utumt´ol. T¨obb kutat´o arr´ol sz´amol be, hogy a megfelel˝o attrib´utumkiv´alaszt´assal p´aros´ıtott na´ıv Bayes oszt´alyoz´o felveszi a versenyt a bonyolultabb, ´ujabb m´odszerekkel.

6.8.2. Na´ıv Bayes-h´ al´ ok ´ es a logisztikus regresszi´ o kapcsolata

Ebben a r´eszben bel´atjuk, hogy amennyiben minden magyar´az´o attrib´utum val´os t´ıpus´u, akkor a norm´alis eloszl´ast felt´etelez˝o na´ıv bayes oszt´alyoz´o (GNB – Gaussian Naive Bayes) GNB egy line´aris oszt´alyoz´o, amely nagyon hasonl´ıt a logisztikus regresszi´ora.

Foglaljuk ¨ossze milyen felt´etelez´esekkel ´el a GNB:

– Az Y bin´aris val´osz´ın˝us´egi v´altoz´o, melynek eloszl´asa pY param´eter˝u binomi´alis eloszl´as.

– Minden Xj magyar´az´o v´altoz´o val´os t´ıpus´u.

– Xj|Y =yi felt´eteles val´osz´ın˝us´egi v´altoz´o µji, σj param´eter˝u norm´alis eloszl´assal, teh´at P(Xj =xj|Y =yi) = √1

2πσ2je

(xjµji)2 2

j

– a magyar´az´o v´altoz´ok adott Y eset´en felt´etelesen f¨uggetlenek egym´ast´ol.

Vegy¨uk ´eszre, hogy az Xj|Y = yi felt´eteles val´osz´ın˝us´egi v´altoz´o sz´or´asa attrib´utumr´ol att-rib´utumra m´as lehet ´es nem f¨ugg Y-t´ol.

C´elunk bel´atni, hogy ezek a feltev´esek hasonl´o alak´uP(Y|X)-t adnak, mint azt a logisztikus regresszi´o teszi (eml´ekeztet˝ok´ent : P(Y = 1|X) = 1

1+e−xT w). Induljunk ki a bayes szab´alyb´ol P(Y = 1|X) = P(Y = 1)P(X|Y = 1)

P(Y = 1)P(X|Y = 1) +P(Y = 0)P(X|Y = 0)

= 1

1 +PP(Y(Y=0)P=1)P(X(X||YY=0)=1) = 1

1 + exp lnPP(Y(Y=0)P=1)P(X(X||YY=0)=1)

most haszn´aljuk ki a felt´eteles f¨uggetlens´eget :

Vizsg´aljuk meg k¨ozelebbr˝ol a szumm´aban szerepl˝o tagot :

lnP(Xj|Y = 0)

Ha ezt visszahelyettes´ıtj¨uk a 6.8 egyenletbe, akkor l´athat´o, hogy P(Y = 1|X) t´enyleg az Xj

attrib´utumok s´ulyozott ¨osszeg´enek nemline´aris f¨uggv´enyek´ent ad´odik:

P(Y = 1|X) = 1

Osszegezz¨¨ uk a hasonl´os´agokat ´es a k¨ul¨onbs´egeket a GNB ´es a logisztikus regresszi´o k¨oz¨ott.

Legf¨obb hasonl´os´ag, hogy mind a k´et m´odszer line´aris szepar´al´ast v´egez, azaz az oszt´alyoz´ashoz a magyar´az´o attrib´utumok s´ulyozott ¨osszeg´et veszi alapul. K¨ul¨onbs´eg van azonban a s´ulyok meghat´aroz´as´aban. A logisztikus regresszi´o k¨ozvetlen¨ul becsli a s´ulyokat, m´ıg a GNB norm´alis eloszl´ast felt´etelezve megbecsli a v´arhat´o ´ert´eket ´es a sz´or´ast, majd ez alapj´an sz´am´ıt egy s´ulyt.

A logisztikus regresszi´o teh´at k¨ozvetlen¨ul becsliP(Y|X)-et, m´ıg a Bayes oszt´alyoz´o ezt k¨ozvetve teszi, P(Y) ´esP(X|Y) becsl´es´evel. Be lehet l´atni, hogy amennyiben fenn´all a normalit´asra tett felt´etele a GNB-nek, akkor a GNB ´es a logisztikus regresszi´o ugyanazt azt oszt´alyoz´ot (azaz ugyanazokat a s´ulyokat) eredm´enyezik.

A logisztikus regresszi´o – mivel nem ´el semmilyen felt´etelez´essel az adatra vonatkoz´oan – egy

´altal´anosabb m´odszernek tekinthet˝o, mint a GNB. Ha nem teljes¨ul a normalit´asra tett felt´etel, akkor a GNB torz erem´enyt ad, m´ıg a logisztikus regresszi´o

”adapt´al´odik a helyzethet”.

A legk¨ozelebbi szomsz´ed m´odszern´el m´ar megtanultuk, hogy az ´altal´anosabb m´odszer nem tekinthet˝o jobb m´odszernek (ha ez nem ´ıgy lenne, akkor mindenre a legk¨ozelebbi szomsz´ed m´odszert haszn´aln´ank, hiszen ez a leg´altal´anosabb m´odszer). Az ´altal´anos m´odszerek hajlamo-sak a t´ultanul´asra. Sz´amos ´ır´as sz¨uletett, amely pont a logisztikus regresszi´o t´ultanul´as´anak haj-lam´at pr´ob´alja visszafogni k¨ul¨onf´ele b¨untet˝of¨uggv´enyek bevezet´es´evel. Az ´altal´anos m´odszerek

tov´abbi h´atr´anya, hogy j´oval t¨obb tan´ıt´opontra van sz¨uks´eg¨uk, mint azoknak, amelyek valami-lyen felt´etelez´essel ´elnek a h´att´erben megb´uj´o modellel kapcsolatban.

Nem meglep˝o ez´ert, hogy k¨ul¨onbs´eg van a tanul´as konvergenci´aj´anak sebess´eg´eben is. A lo-gisztikus regresszi´onak O(n) a Bayes h´al´onak csak O(logn) tan´ıt´opontra van sz¨uks´ege ugyana-akkora pontoss´ag el´er´es´ehez (amennyiben a normalit´asra tett felt´etel teljes¨ul).

6.8.3. Bayes hihet˝ os´ egi h´ al´ ok

A Bayes hihet˝os´egi h´al´ok (Bayesian belief networks) a f¨uggetlens´egre tett felt´etelt enyh´ıtik.

Lehet˝ov´e teszik az adatb´any´asznak, hogy egy ir´any´ıtott, k¨ormentes gr´af seg´ıts´eg´evel a v´altoz´ok k¨oz¨otti f¨ugg˝os´egi strukt´ur´at el˝ore megadja. A gr´af csom´opontjai megfigyelhet˝o ´es nem megfi-gyelhet˝o, de felt´etelezett (rejtett) v´altoz´ok lehetnek. ´Ugy gondoljuk, hogy a gr´af a f¨ugg˝os´egeket j´ol le´ırja, azaz

P((Z1, Z2, . . . , Zs) = (z1, z2, . . . , zs)) = Ys

j=1

P(Zj=zj|par(Zj))

teljes¨ul, ahol par(Zj) a Zj cs´ucs sz¨uleit (a gr´afban k¨ozvetlen¨ul belemutat´o cs´ucsok halmaz´at jel¨oli). Minthogy a h´al´o strukt´ur´aja a teljes eloszl´ast le´ırja, ez´ert tetsz˝oleges Zj cs´ucsokat ki-jel¨olhet¨unk outputnak / el˝orejelzend˝onek. Ha nincsenek rejtett v´altoz´ok, akkor a sz¨uks´eges

P(Zj=zj|par(Zj))

val´osz´ın˝us´egek k¨ozvetlen becs¨ulhet˝ok a mint´ab´ol. Ha a h´al´o rejtett v´altoz´okat is tartalmaz, ak-kor a gradiens m´odszer egy v´altozata alkalmazhat´o. V´eg¨ul olyan elj´ar´asok is ismertek, amelyek seg´ıts´eg´evel a h´al´ozat topol´ogi´aja a tanul´o p´eld´akb´ol kialak´ıthat´o, nem felt´etlen¨ul sz¨uks´eges azt el˝ore megadni.

In document Magyar nyelv˝ u irodalom (Pldal 157-161)