Bayes-hálózatok - Osztályozás és regresszió

Osztályozás és regresszió

4.7. Bayes-hálózatok

A Bayes-hálózatok két fontos elvre építenek. A maximum likelihood elv sze-rint egy objektum (elem) osztályozásánál azt az osztályt fogjuk választani, amelynek a legnagyobb a valószín¶sége a meggyelések és az adott objektum osztályattribútumtól különböz® attribútumai alapján. A Bayes-tétel szerint pedig meghatározhatjuk a feltételes valószín¶séget, ha ismerünk néhány másik valószín¶séget.

A Bayes-tétel segítségével meghatározható az optimális (lásd 4.1.2. sza-kaszt) klasszikációs szabály. Az egyszer¶ség kedvéért a tévedés költsége le-gyen minden esetben azonos. Az osztályozandó példányokat ele-gyenként te-kintjük, Y_i-vel jelöljük azt az eseményt, hogy az osztályozadó objektum az i-edik osztályba tartozik (Y = yi). A korábbiakhoz hasonlóan az objektu-mok (példányok) meggyelhet® tulajdonságait az X⃗ írja le, X⃗ komponenseit, az egyes attribútumokat,X1, . . . Xk-val jelöljük. Az egyes attribútumok adott (osztályozandó) objektum (példány) esetén felvett konkrét értékeitx₁, . . . , x_k -val jelöljük,⃗x= (x₁, ..., x_k). Egy ismeretlen,⃗x tulajdonságú példányt abba az osztályba (i) érdemes sorolni, amelyikre P(

Y_i|X⃗ =⃗x

) minden i osztályra konstans, ezért P(

Y_i|X⃗ =⃗x

) maxima-lizálásához elegend®P(

X⃗ =⃗x|Y_i

)P(Y_i)-t maximalizálni. P(Y_i) vagy a priori adott, vagy pedig a mintából a relatív gyakoriságokkal egyszer¶en becsülhet®.

Így már csak P(

X⃗ =⃗x|Y_i

)-t kell meghatározni.

Amennyiben k darab bináris magyarázó attibútumunk van, az Y pedig ℓ féle értéket vehet fel, akkorℓ(2^k−1)darabP(

X⃗ =⃗x|Y_i

)értéket kellene megbe-csülnünk. A 3.3.6 részben láttuk, hogy egy valószín¶ség megbecsléséhez relatív gyakorisággal mennyi tanítópontot kell vennünk. A gyakorlati esetek többsé-gében ennyi tanítópont nem áll rendelkezésünkre, ezért valamilyen feltétellel kell élnünk a modell kapcsán. A naív Bayes-hálók feltételezik, hogy az egyes attribútumok feltételesen függetlenek egymástól.

4.7.1. Naív Bayes-hálók

A naív Bayes-hálók olyan feltételezéssel élnek, amelynek segítségével aℓ(2^k−1) darab megbecsülend® paraméter számaℓ·k-ra csökken. Eszerint az

osztályatt-ribútum adott értéke mellett az X⃗ = (X₁, . . . , X_k) attribútumok feltételesen függetlenek egymástól (lásd a 2.2.1. fejezetet). Ekkor a P(

X⃗ =⃗x|Y_i

) való-szín¶ség kifejezhet® aP(X_j|Y) valószín¶ségek szorzataként, hiszen

Az els® egyenl®tlenségnél a valószín¶ségek általános tulajdonságát használtuk fel, a másodiknál pedig a feltételes függetlenséget. Könny¶ belátni, hogy k magyarázó változó esetén a következ®t kapjuk

X⃗ =⃗x|Yi

)

=P((X1, X2, . . . , Xk) = (x1, x2, . . . , xk)|Yi) =

∏k j=1

P(Xj =xj|Yi).

AP(X_j =x_j|Y_i)valószín¶ségeket a mintából becsülhetjük. Vegyük észre, hogy ha minden osztályhoz tartozik elegend® objektum a T tanítóadatbázisban, a P(X_j =x_j|Y_i) alakú, egyetlen X_j magyarázó változót (attribútumot) tartal-mazó feltételes valószín¶ségek sokkal jobban becsülhet®k a tanítóadatbázis, mint minta alapján, mintha P((X₁, X₂, . . . , X_k) = (x₁, x₂, . . . , x_k)|Y_i)-t vagy P(Y_i|(X₁, X₂, . . . , X_k) = (x₁, x₂, . . . , x_k))-t becsülnénk közvetlenül.

Kategória típusú attribútum

Amennyiben azX_j kategória típusú, akkor P(X_j =x_j|Y_i) valószín¶séget a re-latív gyakorisággal közelítjük, tehát meghatározzuk azX_j attribútumában x_j értéket felvev® elemek arányát a Y_i osztályú elemek között. Ezt szemlélteti a 4.16. ábrán látható példa.

Problémát jelenthet, ha valamelyik relatív gyakoriság nulla, mert ekkor amint a 4.16. ábra példáján is látható a szorzat is nulla lesz a többi tag-tól függetlenül. Legegyszer¶bb megoldás, hogy az adott attribútum minden értékének el®fordulásához hozzáadunk egyet. Ha volt elég mintánk, akkor a valószín¶ségek alig torzulnak, viszont sikerül kiküszöbölnünk azt, hogy a nulla tag miatt a többi relatív gyakoriságot nem vesszük gyelembe. Ha például egy adott osztályba tartozó elemek valamely attribútuma három értéket ve-het fel és az el®fordulások: 0, 150, 250. Akkor 0, 150/400, 250/400 helyett 1/403, 151/403, 251/403 értékeket használunk. Erre a technikára az iroda-lomban, mint Laplace estimation hivatkoznak. Egy kinomultabb módszer, ha egy helyett p_k-t adunk a relatív gyakorisághoz, ahol p_k-val jelöljük a k-adik attribútumérték relatív gyakoriságát a teljes tanítóhalmazban (tehát nem csak aY_i osztályba tartozó objektumok között).

4.16. ábra. Példa: naív Bayes osztályozó.

Szám típusú attribútum

AmennyibenX_j szám típusú és tudjuk aP(X_j|Y_i)eloszlásának típusát, akkor a keresett valószín¶séghez szükséges eloszlásparamétereket statisztikai módszer-rel becsüljük. Ha például normális eloszlással van dolgunk, akkor elég meg-határoznunk a várható értéket és a szórást osztályonként, ezekb®l tetsz®leges értékhez tartozó valószín¶ség a s¶r¶ségfüggvényb®l közvetlenül adódik. Az kö-vetkez® képletekben |Y_i|-vel azi-dik osztályba tartozó példányok számát, x^k_i,j -vel az i-edik osztályba tartozó k-dik példány j-edik attribútumának értékét, µ_i,j-vel illetveσ^∗_i,j-gal azi-edik osztályba tartozó elemekj-edik attribútumának mintaátlagát illetve empirikus szórását jelöljük. A várható értéket a mintaát-laggal (empirikus közép : µ_i,j =∑_|Yi|

k=1x^k_i,j/|Y_i|), a szórásnégyzetet a korrigált empirikus szorásnégyzettel (σ^∗_i,j² =∑_|Yi|

k=1(x^k_i,j −µ_i,j)²/(|Y_i| −1)) becsüljük. A számítások során úgy tekinthetjük, hogy a keresett valószín¶séget a

P(X_j =x_j|Y_i) = 1 σ_i,j^∗ √

2πe^(x^j⁻^µ^i,j⁾²^/2σ^∗2^i,j

képlet adja. Megjegyezzük, hogy a folytonos esetben valójában nincs sok ér-telme annak a kérdésnek, hogy mi a valószín¶sége annak, hogy egyX változó értéke pontosan egyenl®x-szel. Ehelyett azt a kérdést szokás feltenni, hogy mi a valószín¶sége annak, hogy egyXváltozó értéke egy adott[x^′−ϵ...x^′+ϵ] inter-vallumba esik, ezért ahhoz hogy valószín¶ségr®l beszélhessünk, valójában integ-rálnunk kellene a fenti s¶r¶ségfüggvényt egy rövid[x^′−ϵ...x^′+ϵ]intervallumra.

A gyakorlatban ugyanakkor nyugodtan használhatjuk a fenti képlet által adott számokat a naív Bayes osztályozóban az egyes osztályok valószín¶ségeinek szá-mításakor.

A naív Bayes osztályozó hátrányra, hogy feltételes függetlenséget feltételez, és azt, hogy az attribútumok egyenl®en fontosak az osztályozás során. So-kat javíthatunk a naív Bayes osztályozók pontosságán, ha el®feldolgozás során meghatározzuk a fontos attribútumokat, tehát azokat, amelyekr®l úgy gondol-juk, hogy nem függetlenek az osztályattribútumtól. Több kutató arról számol be, hogy a megfelel® attribútumkiválasztással párosított naív Bayes osztályozó felveszi a versenyt a bonyolultabb, újabb módszerekkel.

4.7.2. Naív Bayes-hálók és a logisztikus regresszió kap-csolata

Ebben a részben belátjuk, hogy amennyiben minden magyarázó attribútum valós típusú, akkor a normális eloszlást feltételez® naív Bayes osztályozó (Gaus-sian Naive Bayes, röviden: GNB) egy lineáris osztályozó, amely nagyon hasonlít a logisztikus regresszióra.

Foglaljuk össze milyen feltételezésekkel él a GNB:

• Az Y bináris valószín¶ségi változó, melynek eloszlása p_Y paraméter¶ bi-nomiális eloszlás.

• Minden X_j magyarázó változó valós típusú.

• Xj|Yi feltételes valószín¶ségi változóµi,j, σi,j paraméter¶ normális elosz-lással írható le, tehát P(X_j =x_j|Y_i) = 1

σ_i,j√

2πe^(x^j⁻^µ^i,j⁾²^/2σ^i,j²

• a magyarázó változók adott Y esetén feltételesen függetlenek egymástól.

Vegyük észre, hogy az X_j|Y_i feltételes valószín¶ségi változó szórása, σ_i,j, att-ribútumról attribútumra más lehet. Feltételezzük továbbá, hogy a szórás nem függ Y-tól: σ_0,j =σ_1,j =σ_j.

Célunk belátni, hogy ezek a feltevések hasonló alakúP(Y|X)-t adnak, mint azt a logisztikus regresszió teszi (emlékeztet®ként: P(Y = 1|X) = ¹

1+e⁻^⃗^{xT ⃗}^w). most használjuk ki a feltételes függetlenséget:

P(Y = 1|X) = 1

Vizsgáljuk meg közelebbr®l a szummában szerepl® tagot:

lnP(X_j|Y = 0) Ha ezt visszahelyettesítjük a 4.11 egyenletbe, akkor látható, hogyP(Y = 1|X) tényleg az X_j attribútumok súlyozott összegének nemlineáris függvényeként adódik:

P(Y = 1|X) = 1 1 +e^w⁰^+⃗^x^T^w^⃗,

ahol a súlyok

w_j = µ_j,0−µ_j,1 σ_j² , a torzítás pedig:

w₀ = ln1−pY

p_Y +∑

µ²_j,1−µ²_j,0 2σ²_j

Összegezzük a hasonlóságokat és a különbségeket a GNB és a logisztikus regresszió között. Legf®bb hasonlóság, hogy mind a két módszer lineáris sze-parálást végez, azaz az osztályozáshoz a magyarázó attribútumok súlyozott összegét veszi alapul. Különbség van azonban a súlyok meghatározásában. A logisztikus regresszió közvetlenül becsli a súlyokat, míg a GNB normális el-oszlást feltételezve megbecsli a várható értéket és a szórást, majd ez alapján számít egy súlyt. A logisztikus regresszió tehát közvetlenül becsli P(Y|X)-et, míg a Bayes osztályozó ezt közvetve teszi,P(Y)ésP(X|Y)becslésével. Be lehet látni, hogy amennyiben fennáll a normalitásra tett feltétele a GNB-nek, akkor a GNB és a logisztikus regresszió ugyanazt azt osztályozót (azaz ugyanazokat a súlyokat) eredményezik.

A logisztikus regresszió mivel nem él semmilyen feltételezéssel az adatra vonatkozóan egy általánosabb módszernek tekinthet®, mint a GNB. Ha nem teljesül a normalitásra tett feltétel, akkor a GNB torz ereményt ad, míg a logisztikus regresszió adaptálódik a helyzethet.

Az általános módszerek egyik hátránya, hogy jóval több tanítópontra van szükségük, mint azoknak, amelyek valamilyen feltételezéssel élnek a háttérben megbújó modellel kapcsolatban. Nem meglep® ezért, hogy különbség van a tanulás konvergenciájának sebességében: a logisztikus regressziónak O(n) a Bayes hálónak csak O(logn)tanítópontra van szüksége ugyanaakkora pontos-ság eléréséhez (amennyiben a normalitásra tett feltétel teljesül).

Amint láttuk, a naív Bayes osztályozó akkor is boldogul, ha az attribútu-mok közt szám típusú és kategóris típusú attribútum egyaránt el®fordul, míg a logisztikus regresszió csak szám típusú attribútumokat képes kezelni.

4.7.3. Bayes hihet®ségi hálók

A Bayes hihet®ségi hálók (Bayesian belief networks, más névan Bayes-hálók, Bayesian networks) a függetlenségre tett feltételt enyhítik. Lehet®vé teszik az adatbányásznak, hogy egy irányított, körmentes gráf segítségével a változók kö-zötti függ®ségi struktúrát el®re megadja. A gráf csomópontjai meggyelhet® és nem meggyelhet®, de feltételezett (rejtett) változók lehetnek. Úgy gondoljuk,

hogy a gráf a függ®ségeket jól leírja, azaz P((Z₁, Z₂, . . . , Z_s) = (z₁, z₂, . . . , z_s)) =

∏s j=1

P(Z_j =z_j|par(Z_j))

teljesül, ahol par(Z_j)aZ_j csúcs szüleit (a gráfban közvetlenül belemutató csú-csok halmazát jelöli). A fenti képletbeli Z egyaránt lehet magyarázott változó (osztályattribútum, Y) és magyarázó változó (X1, ..., Xk) is.

Mivel a háló struktúrája a teljes eloszlást leírja, ezért általánosságban tetsz®leges Z_j csúcsokat kijelölhetünk outputnak / el®rejelzend®nek. Amikor a Bayes-hálókat osztályozásra használjuk, az osztályattribútumnak megfelel® csúcsot választjuk outputnak.

Ha nincsenek rejtett változók, akkor a szükséges P(Z_j =z_j|par(Z_j))

valószín¶ségek közvetlen becsülhet®k a mintából. Ha a háló rejtett változókat is tartalmaz, akkor a gradiens módszer egy változata alkalmazható. Végül megemlítjük, hogy olyan eljárások is ismertek, amelyek segítségével a hálózat topológiája a tanuló példákból kialakítható, nem feltétlenül szükséges azt el®re megadni.

In document Kinek szól ez a jegyzet? (Pldal 154-160)