• Nem Talált Eredményt

Bayes-hálózatok

In document Kinek szól ez a jegyzet? (Pldal 154-160)

Osztályozás és regresszió

4.7. Bayes-hálózatok

A Bayes-hálózatok két fontos elvre építenek. A maximum likelihood elv sze-rint egy objektum (elem) osztályozásánál azt az osztályt fogjuk választani, amelynek a legnagyobb a valószín¶sége a meggyelések és az adott objektum osztályattribútumtól különböz® attribútumai alapján. A Bayes-tétel szerint pedig meghatározhatjuk a feltételes valószín¶séget, ha ismerünk néhány másik valószín¶séget.

A Bayes-tétel segítségével meghatározható az optimális (lásd 4.1.2. sza-kaszt) klasszikációs szabály. Az egyszer¶ség kedvéért a tévedés költsége le-gyen minden esetben azonos. Az osztályozandó példányokat ele-gyenként te-kintjük, Yi-vel jelöljük azt az eseményt, hogy az osztályozadó objektum az i-edik osztályba tartozik (Y = yi). A korábbiakhoz hasonlóan az objektu-mok (példányok) meggyelhet® tulajdonságait az X⃗ írja le, X⃗ komponenseit, az egyes attribútumokat,X1, . . . Xk-val jelöljük. Az egyes attribútumok adott (osztályozandó) objektum (példány) esetén felvett konkrét értékeitx1, . . . , xk -val jelöljük,⃗x= (x1, ..., xk). Egy ismeretlen,⃗x tulajdonságú példányt abba az osztályba (i) érdemes sorolni, amelyikre P(

Yi|X⃗ =⃗x

) minden i osztályra konstans, ezért P(

Yi|X⃗ =⃗x

) maxima-lizálásához elegend®P(

X⃗ =⃗x|Yi

)P(Yi)-t maximalizálni. P(Yi) vagy a priori adott, vagy pedig a mintából a relatív gyakoriságokkal egyszer¶en becsülhet®.

Így már csak P(

X⃗ =⃗x|Yi

)-t kell meghatározni.

Amennyiben k darab bináris magyarázó attibútumunk van, az Y pedig féle értéket vehet fel, akkorℓ(2k1)darabP(

X⃗ =⃗x|Yi

)értéket kellene megbe-csülnünk. A 3.3.6 részben láttuk, hogy egy valószín¶ség megbecsléséhez relatív gyakorisággal mennyi tanítópontot kell vennünk. A gyakorlati esetek többsé-gében ennyi tanítópont nem áll rendelkezésünkre, ezért valamilyen feltétellel kell élnünk a modell kapcsán. A naív Bayes-hálók feltételezik, hogy az egyes attribútumok feltételesen függetlenek egymástól.

4.7.1. Naív Bayes-hálók

A naív Bayes-hálók olyan feltételezéssel élnek, amelynek segítségével aℓ(2k1) darab megbecsülend® paraméter számaℓ·k-ra csökken. Eszerint az

osztályatt-ribútum adott értéke mellett az X⃗ = (X1, . . . , Xk) attribútumok feltételesen függetlenek egymástól (lásd a 2.2.1. fejezetet). Ekkor a P(

X⃗ =⃗x|Yi

) való-szín¶ség kifejezhet® aP(Xj|Y) valószín¶ségek szorzataként, hiszen

P(X1, X2|Yi) =P(X1|X2, Yi)P(X2|Yi) =P(X1|Yi)P(X2|Yi)

Az els® egyenl®tlenségnél a valószín¶ségek általános tulajdonságát használtuk fel, a másodiknál pedig a feltételes függetlenséget. Könny¶ belátni, hogy k magyarázó változó esetén a következ®t kapjuk

P(

X⃗ =⃗x|Yi

)

=P((X1, X2, . . . , Xk) = (x1, x2, . . . , xk)|Yi) =

k j=1

P(Xj =xj|Yi).

AP(Xj =xj|Yi)valószín¶ségeket a mintából becsülhetjük. Vegyük észre, hogy ha minden osztályhoz tartozik elegend® objektum a T tanítóadatbázisban, a P(Xj =xj|Yi) alakú, egyetlen Xj magyarázó változót (attribútumot) tartal-mazó feltételes valószín¶ségek sokkal jobban becsülhet®k a tanítóadatbázis, mint minta alapján, mintha P((X1, X2, . . . , Xk) = (x1, x2, . . . , xk)|Yi)-t vagy P(Yi|(X1, X2, . . . , Xk) = (x1, x2, . . . , xk))-t becsülnénk közvetlenül.

Kategória típusú attribútum

Amennyiben azXj kategória típusú, akkor P(Xj =xj|Yi) valószín¶séget a re-latív gyakorisággal közelítjük, tehát meghatározzuk azXj attribútumában xj értéket felvev® elemek arányát a Yi osztályú elemek között. Ezt szemlélteti a 4.16. ábrán látható példa.

Problémát jelenthet, ha valamelyik relatív gyakoriság nulla, mert ekkor amint a 4.16. ábra példáján is látható a szorzat is nulla lesz a többi tag-tól függetlenül. Legegyszer¶bb megoldás, hogy az adott attribútum minden értékének el®fordulásához hozzáadunk egyet. Ha volt elég mintánk, akkor a valószín¶ségek alig torzulnak, viszont sikerül kiküszöbölnünk azt, hogy a nulla tag miatt a többi relatív gyakoriságot nem vesszük gyelembe. Ha például egy adott osztályba tartozó elemek valamely attribútuma három értéket ve-het fel és az el®fordulások: 0, 150, 250. Akkor 0, 150/400, 250/400 helyett 1/403, 151/403, 251/403 értékeket használunk. Erre a technikára az iroda-lomban, mint Laplace estimation hivatkoznak. Egy kinomultabb módszer, ha egy helyett pk-t adunk a relatív gyakorisághoz, ahol pk-val jelöljük a k-adik attribútumérték relatív gyakoriságát a teljes tanítóhalmazban (tehát nem csak aYi osztályba tartozó objektumok között).

4.16. ábra. Példa: naív Bayes osztályozó.

Szám típusú attribútum

AmennyibenXj szám típusú és tudjuk aP(Xj|Yi)eloszlásának típusát, akkor a keresett valószín¶séghez szükséges eloszlásparamétereket statisztikai módszer-rel becsüljük. Ha például normális eloszlással van dolgunk, akkor elég meg-határoznunk a várható értéket és a szórást osztályonként, ezekb®l tetsz®leges értékhez tartozó valószín¶ség a s¶r¶ségfüggvényb®l közvetlenül adódik. Az kö-vetkez® képletekben |Yi|-vel azi-dik osztályba tartozó példányok számát, xki,j -vel az i-edik osztályba tartozó k-dik példány j-edik attribútumának értékét, µi,j-vel illetveσi,j-gal azi-edik osztályba tartozó elemekj-edik attribútumának mintaátlagát illetve empirikus szórását jelöljük. A várható értéket a mintaát-laggal (empirikus közép : µi,j =∑|Yi|

k=1xki,j/|Yi|), a szórásnégyzetet a korrigált empirikus szorásnégyzettel (σi,j2 =∑|Yi|

k=1(xki,j −µi,j)2/(|Yi| −1)) becsüljük. A számítások során úgy tekinthetjük, hogy a keresett valószín¶séget a

P(Xj =xj|Yi) = 1 σi,j

e(xjµi,j)2/2σ∗2i,j

képlet adja. Megjegyezzük, hogy a folytonos esetben valójában nincs sok ér-telme annak a kérdésnek, hogy mi a valószín¶sége annak, hogy egyX változó értéke pontosan egyenl®x-szel. Ehelyett azt a kérdést szokás feltenni, hogy mi a valószín¶sége annak, hogy egyXváltozó értéke egy adott[x−ϵ...x+ϵ] inter-vallumba esik, ezért ahhoz hogy valószín¶ségr®l beszélhessünk, valójában integ-rálnunk kellene a fenti s¶r¶ségfüggvényt egy rövid[x−ϵ...x+ϵ]intervallumra.

A gyakorlatban ugyanakkor nyugodtan használhatjuk a fenti képlet által adott számokat a naív Bayes osztályozóban az egyes osztályok valószín¶ségeinek szá-mításakor.

A naív Bayes osztályozó hátrányra, hogy feltételes függetlenséget feltételez, és azt, hogy az attribútumok egyenl®en fontosak az osztályozás során. So-kat javíthatunk a naív Bayes osztályozók pontosságán, ha el®feldolgozás során meghatározzuk a fontos attribútumokat, tehát azokat, amelyekr®l úgy gondol-juk, hogy nem függetlenek az osztályattribútumtól. Több kutató arról számol be, hogy a megfelel® attribútumkiválasztással párosított naív Bayes osztályozó felveszi a versenyt a bonyolultabb, újabb módszerekkel.

4.7.2. Naív Bayes-hálók és a logisztikus regresszió kap-csolata

Ebben a részben belátjuk, hogy amennyiben minden magyarázó attribútum valós típusú, akkor a normális eloszlást feltételez® naív Bayes osztályozó (Gaus-sian Naive Bayes, röviden: GNB) egy lineáris osztályozó, amely nagyon hasonlít a logisztikus regresszióra.

Foglaljuk össze milyen feltételezésekkel él a GNB:

Az Y bináris valószín¶ségi változó, melynek eloszlása pY paraméter¶ bi-nomiális eloszlás.

Minden Xj magyarázó változó valós típusú.

Xj|Yi feltételes valószín¶ségi változóµi,j, σi,j paraméter¶ normális elosz-lással írható le, tehát P(Xj =xj|Yi) = 1

σi,j

e(xjµi,j)2/2σi,j2

a magyarázó változók adott Y esetén feltételesen függetlenek egymástól.

Vegyük észre, hogy az Xj|Yi feltételes valószín¶ségi változó szórása, σi,j, att-ribútumról attribútumra más lehet. Feltételezzük továbbá, hogy a szórás nem függ Y-tól: σ0,j =σ1,j =σj.

Célunk belátni, hogy ezek a feltevések hasonló alakúP(Y|X)-t adnak, mint azt a logisztikus regresszió teszi (emlékeztet®ként: P(Y = 1|X) = 1

1+exT ⃗w). most használjuk ki a feltételes függetlenséget:

P(Y = 1|X) = 1

Vizsgáljuk meg közelebbr®l a szummában szerepl® tagot:

lnP(Xj|Y = 0) Ha ezt visszahelyettesítjük a 4.11 egyenletbe, akkor látható, hogyP(Y = 1|X) tényleg az Xj attribútumok súlyozott összegének nemlineáris függvényeként adódik:

P(Y = 1|X) = 1 1 +ew0+⃗xTw,

ahol a súlyok

wj = µj,0−µj,1 σj2 , a torzítás pedig:

w0 = ln1−pY

pY +∑

j

µ2j,1−µ2j,02j

Összegezzük a hasonlóságokat és a különbségeket a GNB és a logisztikus regresszió között. Legf®bb hasonlóság, hogy mind a két módszer lineáris sze-parálást végez, azaz az osztályozáshoz a magyarázó attribútumok súlyozott összegét veszi alapul. Különbség van azonban a súlyok meghatározásában. A logisztikus regresszió közvetlenül becsli a súlyokat, míg a GNB normális el-oszlást feltételezve megbecsli a várható értéket és a szórást, majd ez alapján számít egy súlyt. A logisztikus regresszió tehát közvetlenül becsli P(Y|X)-et, míg a Bayes osztályozó ezt közvetve teszi,P(Y)ésP(X|Y)becslésével. Be lehet látni, hogy amennyiben fennáll a normalitásra tett feltétele a GNB-nek, akkor a GNB és a logisztikus regresszió ugyanazt azt osztályozót (azaz ugyanazokat a súlyokat) eredményezik.

A logisztikus regresszió mivel nem él semmilyen feltételezéssel az adatra vonatkozóan egy általánosabb módszernek tekinthet®, mint a GNB. Ha nem teljesül a normalitásra tett feltétel, akkor a GNB torz ereményt ad, míg a logisztikus regresszió adaptálódik a helyzethet.

Az általános módszerek egyik hátránya, hogy jóval több tanítópontra van szükségük, mint azoknak, amelyek valamilyen feltételezéssel élnek a háttérben megbújó modellel kapcsolatban. Nem meglep® ezért, hogy különbség van a tanulás konvergenciájának sebességében: a logisztikus regressziónak O(n) a Bayes hálónak csak O(logn)tanítópontra van szüksége ugyanaakkora pontos-ság eléréséhez (amennyiben a normalitásra tett feltétel teljesül).

Amint láttuk, a naív Bayes osztályozó akkor is boldogul, ha az attribútu-mok közt szám típusú és kategóris típusú attribútum egyaránt el®fordul, míg a logisztikus regresszió csak szám típusú attribútumokat képes kezelni.

4.7.3. Bayes hihet®ségi hálók

A Bayes hihet®ségi hálók (Bayesian belief networks, más névan Bayes-hálók, Bayesian networks) a függetlenségre tett feltételt enyhítik. Lehet®vé teszik az adatbányásznak, hogy egy irányított, körmentes gráf segítségével a változók kö-zötti függ®ségi struktúrát el®re megadja. A gráf csomópontjai meggyelhet® és nem meggyelhet®, de feltételezett (rejtett) változók lehetnek. Úgy gondoljuk,

hogy a gráf a függ®ségeket jól leírja, azaz P((Z1, Z2, . . . , Zs) = (z1, z2, . . . , zs)) =

s j=1

P(Zj =zj|par(Zj))

teljesül, ahol par(Zj)aZj csúcs szüleit (a gráfban közvetlenül belemutató csú-csok halmazát jelöli). A fenti képletbeli Z egyaránt lehet magyarázott változó (osztályattribútum, Y) és magyarázó változó (X1, ..., Xk) is.

Mivel a háló struktúrája a teljes eloszlást leírja, ezért általánosságban tetsz®leges Zj csúcsokat kijelölhetünk outputnak / el®rejelzend®nek. Amikor a Bayes-hálókat osztályozásra használjuk, az osztályattribútumnak megfelel® csúcsot választjuk outputnak.

Ha nincsenek rejtett változók, akkor a szükséges P(Zj =zj|par(Zj))

valószín¶ségek közvetlen becsülhet®k a mintából. Ha a háló rejtett változókat is tartalmaz, akkor a gradiens módszer egy változata alkalmazható. Végül megemlítjük, hogy olyan eljárások is ismertek, amelyek segítségével a hálózat topológiája a tanuló példákból kialakítható, nem feltétlenül szükséges azt el®re megadni.

In document Kinek szól ez a jegyzet? (Pldal 154-160)