Osztályozás és regresszió
4.7. Bayes-hálózatok
A Bayes-hálózatok két fontos elvre építenek. A maximum likelihood elv sze-rint egy objektum (elem) osztályozásánál azt az osztályt fogjuk választani, amelynek a legnagyobb a valószín¶sége a meggyelések és az adott objektum osztályattribútumtól különböz® attribútumai alapján. A Bayes-tétel szerint pedig meghatározhatjuk a feltételes valószín¶séget, ha ismerünk néhány másik valószín¶séget.
A Bayes-tétel segítségével meghatározható az optimális (lásd 4.1.2. sza-kaszt) klasszikációs szabály. Az egyszer¶ség kedvéért a tévedés költsége le-gyen minden esetben azonos. Az osztályozandó példányokat ele-gyenként te-kintjük, Yi-vel jelöljük azt az eseményt, hogy az osztályozadó objektum az i-edik osztályba tartozik (Y = yi). A korábbiakhoz hasonlóan az objektu-mok (példányok) meggyelhet® tulajdonságait az X⃗ írja le, X⃗ komponenseit, az egyes attribútumokat,X1, . . . Xk-val jelöljük. Az egyes attribútumok adott (osztályozandó) objektum (példány) esetén felvett konkrét értékeitx1, . . . , xk -val jelöljük,⃗x= (x1, ..., xk). Egy ismeretlen,⃗x tulajdonságú példányt abba az osztályba (i) érdemes sorolni, amelyikre P(
Yi|X⃗ =⃗x
) minden i osztályra konstans, ezért P(
Yi|X⃗ =⃗x
) maxima-lizálásához elegend®P(
X⃗ =⃗x|Yi
)P(Yi)-t maximalizálni. P(Yi) vagy a priori adott, vagy pedig a mintából a relatív gyakoriságokkal egyszer¶en becsülhet®.
Így már csak P(
X⃗ =⃗x|Yi
)-t kell meghatározni.
Amennyiben k darab bináris magyarázó attibútumunk van, az Y pedig ℓ féle értéket vehet fel, akkorℓ(2k−1)darabP(
X⃗ =⃗x|Yi
)értéket kellene megbe-csülnünk. A 3.3.6 részben láttuk, hogy egy valószín¶ség megbecsléséhez relatív gyakorisággal mennyi tanítópontot kell vennünk. A gyakorlati esetek többsé-gében ennyi tanítópont nem áll rendelkezésünkre, ezért valamilyen feltétellel kell élnünk a modell kapcsán. A naív Bayes-hálók feltételezik, hogy az egyes attribútumok feltételesen függetlenek egymástól.
4.7.1. Naív Bayes-hálók
A naív Bayes-hálók olyan feltételezéssel élnek, amelynek segítségével aℓ(2k−1) darab megbecsülend® paraméter számaℓ·k-ra csökken. Eszerint az
osztályatt-ribútum adott értéke mellett az X⃗ = (X1, . . . , Xk) attribútumok feltételesen függetlenek egymástól (lásd a 2.2.1. fejezetet). Ekkor a P(
X⃗ =⃗x|Yi
) való-szín¶ség kifejezhet® aP(Xj|Y) valószín¶ségek szorzataként, hiszen
P(X1, X2|Yi) =P(X1|X2, Yi)P(X2|Yi) =P(X1|Yi)P(X2|Yi)
Az els® egyenl®tlenségnél a valószín¶ségek általános tulajdonságát használtuk fel, a másodiknál pedig a feltételes függetlenséget. Könny¶ belátni, hogy k magyarázó változó esetén a következ®t kapjuk
P(
X⃗ =⃗x|Yi
)
=P((X1, X2, . . . , Xk) = (x1, x2, . . . , xk)|Yi) =
∏k j=1
P(Xj =xj|Yi).
AP(Xj =xj|Yi)valószín¶ségeket a mintából becsülhetjük. Vegyük észre, hogy ha minden osztályhoz tartozik elegend® objektum a T tanítóadatbázisban, a P(Xj =xj|Yi) alakú, egyetlen Xj magyarázó változót (attribútumot) tartal-mazó feltételes valószín¶ségek sokkal jobban becsülhet®k a tanítóadatbázis, mint minta alapján, mintha P((X1, X2, . . . , Xk) = (x1, x2, . . . , xk)|Yi)-t vagy P(Yi|(X1, X2, . . . , Xk) = (x1, x2, . . . , xk))-t becsülnénk közvetlenül.
Kategória típusú attribútum
Amennyiben azXj kategória típusú, akkor P(Xj =xj|Yi) valószín¶séget a re-latív gyakorisággal közelítjük, tehát meghatározzuk azXj attribútumában xj értéket felvev® elemek arányát a Yi osztályú elemek között. Ezt szemlélteti a 4.16. ábrán látható példa.
Problémát jelenthet, ha valamelyik relatív gyakoriság nulla, mert ekkor amint a 4.16. ábra példáján is látható a szorzat is nulla lesz a többi tag-tól függetlenül. Legegyszer¶bb megoldás, hogy az adott attribútum minden értékének el®fordulásához hozzáadunk egyet. Ha volt elég mintánk, akkor a valószín¶ségek alig torzulnak, viszont sikerül kiküszöbölnünk azt, hogy a nulla tag miatt a többi relatív gyakoriságot nem vesszük gyelembe. Ha például egy adott osztályba tartozó elemek valamely attribútuma három értéket ve-het fel és az el®fordulások: 0, 150, 250. Akkor 0, 150/400, 250/400 helyett 1/403, 151/403, 251/403 értékeket használunk. Erre a technikára az iroda-lomban, mint Laplace estimation hivatkoznak. Egy kinomultabb módszer, ha egy helyett pk-t adunk a relatív gyakorisághoz, ahol pk-val jelöljük a k-adik attribútumérték relatív gyakoriságát a teljes tanítóhalmazban (tehát nem csak aYi osztályba tartozó objektumok között).
4.16. ábra. Példa: naív Bayes osztályozó.
Szám típusú attribútum
AmennyibenXj szám típusú és tudjuk aP(Xj|Yi)eloszlásának típusát, akkor a keresett valószín¶séghez szükséges eloszlásparamétereket statisztikai módszer-rel becsüljük. Ha például normális eloszlással van dolgunk, akkor elég meg-határoznunk a várható értéket és a szórást osztályonként, ezekb®l tetsz®leges értékhez tartozó valószín¶ség a s¶r¶ségfüggvényb®l közvetlenül adódik. Az kö-vetkez® képletekben |Yi|-vel azi-dik osztályba tartozó példányok számát, xki,j -vel az i-edik osztályba tartozó k-dik példány j-edik attribútumának értékét, µi,j-vel illetveσ∗i,j-gal azi-edik osztályba tartozó elemekj-edik attribútumának mintaátlagát illetve empirikus szórását jelöljük. A várható értéket a mintaát-laggal (empirikus közép : µi,j =∑|Yi|
k=1xki,j/|Yi|), a szórásnégyzetet a korrigált empirikus szorásnégyzettel (σ∗i,j2 =∑|Yi|
k=1(xki,j −µi,j)2/(|Yi| −1)) becsüljük. A számítások során úgy tekinthetjük, hogy a keresett valószín¶séget a
P(Xj =xj|Yi) = 1 σi,j∗ √
2πe(xj−µi,j)2/2σ∗2i,j
képlet adja. Megjegyezzük, hogy a folytonos esetben valójában nincs sok ér-telme annak a kérdésnek, hogy mi a valószín¶sége annak, hogy egyX változó értéke pontosan egyenl®x-szel. Ehelyett azt a kérdést szokás feltenni, hogy mi a valószín¶sége annak, hogy egyXváltozó értéke egy adott[x′−ϵ...x′+ϵ] inter-vallumba esik, ezért ahhoz hogy valószín¶ségr®l beszélhessünk, valójában integ-rálnunk kellene a fenti s¶r¶ségfüggvényt egy rövid[x′−ϵ...x′+ϵ]intervallumra.
A gyakorlatban ugyanakkor nyugodtan használhatjuk a fenti képlet által adott számokat a naív Bayes osztályozóban az egyes osztályok valószín¶ségeinek szá-mításakor.
A naív Bayes osztályozó hátrányra, hogy feltételes függetlenséget feltételez, és azt, hogy az attribútumok egyenl®en fontosak az osztályozás során. So-kat javíthatunk a naív Bayes osztályozók pontosságán, ha el®feldolgozás során meghatározzuk a fontos attribútumokat, tehát azokat, amelyekr®l úgy gondol-juk, hogy nem függetlenek az osztályattribútumtól. Több kutató arról számol be, hogy a megfelel® attribútumkiválasztással párosított naív Bayes osztályozó felveszi a versenyt a bonyolultabb, újabb módszerekkel.
4.7.2. Naív Bayes-hálók és a logisztikus regresszió kap-csolata
Ebben a részben belátjuk, hogy amennyiben minden magyarázó attribútum valós típusú, akkor a normális eloszlást feltételez® naív Bayes osztályozó (Gaus-sian Naive Bayes, röviden: GNB) egy lineáris osztályozó, amely nagyon hasonlít a logisztikus regresszióra.
Foglaljuk össze milyen feltételezésekkel él a GNB:
• Az Y bináris valószín¶ségi változó, melynek eloszlása pY paraméter¶ bi-nomiális eloszlás.
• Minden Xj magyarázó változó valós típusú.
• Xj|Yi feltételes valószín¶ségi változóµi,j, σi,j paraméter¶ normális elosz-lással írható le, tehát P(Xj =xj|Yi) = 1
σi,j√
2πe(xj−µi,j)2/2σi,j2
• a magyarázó változók adott Y esetén feltételesen függetlenek egymástól.
Vegyük észre, hogy az Xj|Yi feltételes valószín¶ségi változó szórása, σi,j, att-ribútumról attribútumra más lehet. Feltételezzük továbbá, hogy a szórás nem függ Y-tól: σ0,j =σ1,j =σj.
Célunk belátni, hogy ezek a feltevések hasonló alakúP(Y|X)-t adnak, mint azt a logisztikus regresszió teszi (emlékeztet®ként: P(Y = 1|X) = 1
1+e−⃗xT ⃗w). most használjuk ki a feltételes függetlenséget:
P(Y = 1|X) = 1
Vizsgáljuk meg közelebbr®l a szummában szerepl® tagot:
lnP(Xj|Y = 0) Ha ezt visszahelyettesítjük a 4.11 egyenletbe, akkor látható, hogyP(Y = 1|X) tényleg az Xj attribútumok súlyozott összegének nemlineáris függvényeként adódik:
P(Y = 1|X) = 1 1 +ew0+⃗xTw⃗,
ahol a súlyok
wj = µj,0−µj,1 σj2 , a torzítás pedig:
w0 = ln1−pY
pY +∑
j
µ2j,1−µ2j,0 2σ2j
Összegezzük a hasonlóságokat és a különbségeket a GNB és a logisztikus regresszió között. Legf®bb hasonlóság, hogy mind a két módszer lineáris sze-parálást végez, azaz az osztályozáshoz a magyarázó attribútumok súlyozott összegét veszi alapul. Különbség van azonban a súlyok meghatározásában. A logisztikus regresszió közvetlenül becsli a súlyokat, míg a GNB normális el-oszlást feltételezve megbecsli a várható értéket és a szórást, majd ez alapján számít egy súlyt. A logisztikus regresszió tehát közvetlenül becsli P(Y|X)-et, míg a Bayes osztályozó ezt közvetve teszi,P(Y)ésP(X|Y)becslésével. Be lehet látni, hogy amennyiben fennáll a normalitásra tett feltétele a GNB-nek, akkor a GNB és a logisztikus regresszió ugyanazt azt osztályozót (azaz ugyanazokat a súlyokat) eredményezik.
A logisztikus regresszió mivel nem él semmilyen feltételezéssel az adatra vonatkozóan egy általánosabb módszernek tekinthet®, mint a GNB. Ha nem teljesül a normalitásra tett feltétel, akkor a GNB torz ereményt ad, míg a logisztikus regresszió adaptálódik a helyzethet.
Az általános módszerek egyik hátránya, hogy jóval több tanítópontra van szükségük, mint azoknak, amelyek valamilyen feltételezéssel élnek a háttérben megbújó modellel kapcsolatban. Nem meglep® ezért, hogy különbség van a tanulás konvergenciájának sebességében: a logisztikus regressziónak O(n) a Bayes hálónak csak O(logn)tanítópontra van szüksége ugyanaakkora pontos-ság eléréséhez (amennyiben a normalitásra tett feltétel teljesül).
Amint láttuk, a naív Bayes osztályozó akkor is boldogul, ha az attribútu-mok közt szám típusú és kategóris típusú attribútum egyaránt el®fordul, míg a logisztikus regresszió csak szám típusú attribútumokat képes kezelni.
4.7.3. Bayes hihet®ségi hálók
A Bayes hihet®ségi hálók (Bayesian belief networks, más névan Bayes-hálók, Bayesian networks) a függetlenségre tett feltételt enyhítik. Lehet®vé teszik az adatbányásznak, hogy egy irányított, körmentes gráf segítségével a változók kö-zötti függ®ségi struktúrát el®re megadja. A gráf csomópontjai meggyelhet® és nem meggyelhet®, de feltételezett (rejtett) változók lehetnek. Úgy gondoljuk,
hogy a gráf a függ®ségeket jól leírja, azaz P((Z1, Z2, . . . , Zs) = (z1, z2, . . . , zs)) =
∏s j=1
P(Zj =zj|par(Zj))
teljesül, ahol par(Zj)aZj csúcs szüleit (a gráfban közvetlenül belemutató csú-csok halmazát jelöli). A fenti képletbeli Z egyaránt lehet magyarázott változó (osztályattribútum, Y) és magyarázó változó (X1, ..., Xk) is.
Mivel a háló struktúrája a teljes eloszlást leírja, ezért általánosságban tetsz®leges Zj csúcsokat kijelölhetünk outputnak / el®rejelzend®nek. Amikor a Bayes-hálókat osztályozásra használjuk, az osztályattribútumnak megfelel® csúcsot választjuk outputnak.
Ha nincsenek rejtett változók, akkor a szükséges P(Zj =zj|par(Zj))
valószín¶ségek közvetlen becsülhet®k a mintából. Ha a háló rejtett változókat is tartalmaz, akkor a gradiens módszer egy változata alkalmazható. Végül megemlítjük, hogy olyan eljárások is ismertek, amelyek segítségével a hálózat topológiája a tanuló példákból kialakítható, nem feltétlenül szükséges azt el®re megadni.