D¨ ont´ esi szab´ alyok

(1)

Oszt´ alyoz´ as

Fodor G´abor

2010. m´arcius 17.

(2)

1 Bevezet´es

2 Döntési szabályok

3 Döntési fák

4 Bayes-h´al´ok

5 Lineáris szeparálás

6 Support Vector Machine

7 Meta algoritmusok

8 Forr´asok

(3)

Bevezet´ es

Fel¨ugyelt tanul´as (Supervised learning)

Magyarázó attribútumok, magyarázandó attribútum Tan´ıtó pontok, teszthalmaz

Regresszió és Osztályozás

El˝ofeldolgozás (Hiányos adatok, adattiszt´ıtás, adattranszformáció, releváns adatok)

Hiba m´ert´ekek (Accuracy, Precision, Recall, ROC, AUC, Cost)

(4)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(5)

Defin´ıci´ ok

Def. (Döntési szabály)

Az A attribútumhalmaz felett értelmezett döntési szabály alatt olyan R :φ(A)→Y =y logikai implikációt értünk, amelyek feltételrészében az attribútumokra vonatkozó feltételek logikai kapcsolatai állnak, a

következményrészben pedig az osztályattribútumra vonatkozó ´ıtélet.

Def. (Illeszked´es)

Az R :φ(A)→Y =y döntési szabályra illeszkedik a t objektum, ha a feltételrész attribútumváltozóiba t megfelel˝o értékeit helyettes´ıtve igaz

´

ert´eket kapunk.

Def. (Fed´es)

Az R :φ(A)→Y =y szabály lefedi az T objektumhalmazt, ha minden objektum illeszkedik a szabályra. Adott τ tan´ıtó halmaz esetén az R által fedett tan´ıtópontok halmazát coverτ(R)-rel jelöljük.

(6)

D¨ ont´ esi szab´ alyok

szabályhalmaz és szabálysorozat egyértelm˝uség

teljesség kifejez˝oer˝o döntési táblázat

(7)

1R algoritmus

Pofonegyszer˝u osztályozó algoritmus, kiválaszt egy attribútumot, majd annyi szabályt áll´ıt el˝o, ahány különböz˝o értéket vesz fel az attribútumunk a tan´ıtó adathalmazban.

Az A=a→Y =y_i szabály következményében szerepl˝o y_i osztály

´

ertelemszer˝uen a leggyakoribb lesz azAattribútumábana-t felvev˝o tan´ıtópontok közül.

Az 1R egyértelm˝u szabályhalmazt áll´ıt el˝o.

Valós attribútumok problémája

,,Egyszer˝usége ellenére elég jól muzsikál a gyakorlatban.”

0R oszt´alyoz´o

(8)

A Prism m´ odszer

Alapfeltétel: nincsenek olyan tan´ıtópontok, melyek fontos magyarázó attribútumai megegyeznek, de osztályattribútumukban különböznek. (!) separate and conquer

Csak 100%-os pontosságú szabályokat áll´ıt el˝o.

(9)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(10)

Altal´ ´ aban

Könnyen értelmezhet˝o, egyértelm˝u szabályhalmazok Faép´ıtés rekurz´ıv vágásokkal(kérdésekkel)

Le´all´as:

Attribútumhiány Mélységi korlát Nincs jó vágás F˝obb algoritmuscsaládok:

Interactive Dichotomatizer 3 (ID3)

Classification and Regression Trees (CART,C&RT) Chi-squared Automatic Interaction Detection (CHAID)

(11)

Egy kis inform´ aci´ oelm´ elet

X,Y diszkrét v.v. k,l lehetséges értékkel EkkorY entrópiája:

H(Y) =−

l

X

i=1

P(Y =i) logP(Y =i)

Tegyük fel X megfigyelt változó értéke x_j, ekkorY-nal kapcsolatos bizonytalanságunk:

H(Y|X =x_j) =−

l

X

i=1

P(Y =i|X =x_j) logP(Y =i|X =x_j) X ismeretében a várható bizonytalanságunk:

H(Y|X) =

k

X

j=1

P(X =x_j)H(Y|X =x_j) Kölcsönös információ I(Y,X) =H(Y)−H(Y|X)

(12)

ID3

Az egyik leg˝osibb és legismertebb osztályozó algoritmus

Y osztályozásakor azt azX attribútumot választja, melyre I(X,Y) maximális

Hátrány: terebélyes fa

Jav´ıtási ötlet nyereségaránnyal

gainratio(X) =I(X,Y)/H(X) Egy attrib´utum szerint legfeljebb egyszer v´agunk.

Bináris fa Feltételek a csomópontokban: Sorrend, kategória, intervallum

(13)

V´ ag´ asi f¨ uggv´ enyek

X diszkrét v.v. k lehetséges értékkel,p_i :=P(X =x_i),p= (p1,p2, . . . ,p_k) Egy Φ : [0,1]^k →R vágási függvényre vonatkozó Taylor-Silverman kritériumok:

1 Φ(p)≥0

2 Φ az elfajult eloszl´asra minim´alis

3 Φ az egyenletes eloszl´asra maxim´alis

4 Φ(p) a pkomponenseire n´ezve szimmetrikus.

5 Φ differenci´alhat´o

(14)

CART

Entr´opia helyett Gini-index:

Gini(p) = 1−

k

X

i=1

p_i² Ferdén is tudnak vágni (lineáris kombináció) Mindig bináris döntés

(15)

Egy kis statisztika

A₁, . . . ,A_r teljes esem´enyrendszer

H₀ :P(A_i) =p_i (i = 1, . . . ,r),

n független megfigyelés során jelöljeνi a megfelel˝o Ai gyakoriságát!

EkkorH₀ fennállásakor (ν₁, . . . , ν_r) polinomiális eloszlású.

n₁+· · ·+n_r =n eset´en:

PH0(ν₁ =n₁, . . . , ν_r =n_r) = n!

n₁!. . .n_r!p₁ⁿ¹. . .pⁿ_r^r T.

Ha (ν₁, ν₂, . . . , ν_r) polinomiális eloszlású n és p₁, . . . ,p_r(p_i >0) paraméterekkel akkor n→ ∞esetén

r

X

i=1

(ν_i−np_i)²

np_i →χ²(r−1)

(16)

CHAID

Három lépés

Minden magyarázó változóra a statisztikailag leginkább független kategóriák páronkéntiegyes´ıtése

A leginkább függ˝o attribútum kategóriái szerintifelosztás A rekurzió folytatása valamely megáll´ıtási kritériumig Függetlenségvizsgálat χ² próbával diszkrét esetben

X,Y diszkr´et,A_i ={X =x_i},B_j ={Y =y_j},p_i =P(A_i),q_j =P(B_j) ν_ij =|{k :X_k =x_i,Y_k =y_j}|

H0 :X ´esY f¨uggetlenek: P(Ai ∩Bj) =P(Ai)P(Bj) =piqj

χ²=X

i

X

j

(ν_ij −np_iq_j)² npiqj

(17)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(18)

Bayes-h´ al´ ok bevezet˝ o

G (DAG a diszkrét attribútumokon mint csúcsokon) a változók közötti függ˝oségi viszonyokat kódolja.

Lokális Markov-feltétel: Bármely attribútum független nem leszármazottaitól, ha ismert szüleinek értéke.

T. (Láncszabály Bayes-hálókra) P(X) =

n

Y

i=1

P(X_i|Par_i) Következtetés a hálóban

Def. (Markov-takar´o)

Egy változó Markov-takarója a szüleinek, gyermekeinek és a gyermekei szüleinek halmaza.

(19)

A tanul´ as neh´ ezs´ egei

Paramétertanulás, struktúratanulás Melyek a jó struktúrák?

Kritériumfüggvények:

BIC¹(B,D) =

N

X

i=1

log(P(d_i|B))−logN 2 |Θ|

AIC²(B,D) =

N

X

i=1

log(P(d_i|B))− |Θ|

Az óriási keresési tér sz˝uk´ıtése Topológikus sorrend feláll´ıtása

Szül˝ohalmazok méretének korlátozása

1Bayesian Information Criterion

2Akaike Information Criterion

(20)

Moh´ o keres´ esek

Tetsz˝oleges kiindulási gráf (üres, szakért˝oi, random)

´ elt¨orl´es

´

elhozz´aad´as

´

elford´ıt´as WEKA algoritmusok

K2

HillClimbing

RepeatedHillClimbing Simulated Annealing

(21)

Naive Bayes Classifier (NB)

Durva függetlenségi feltétel, rögz´ıtett struktúra C osztályattribútum

A1,A2, . . . ,An magyarázó változók Bayes-tétel miatt

P(C|A₁,A2, . . . ,An) = P(C)P(A1,A2, . . . ,An|C) P(A₁,A₂, . . . ,A_n) Függetlenségi feltételünk alapján

P(A₁, . . . ,A_n|C) =

n

Y

i=1

P(A_i|C) ML d¨ont´es

classify(a₁, . . . ,a_n) = arg max

c

P(C =c)

n

Y

i=1

P(A_i =a_i|C =c

(22)

Tree Augmented Naive Bayes Model(TAN)

Bonyolultabb, de kezelhet˝o strukt´ura C ´arva

A₁,A₂, . . . ,A_n mindC gyermekei A1,A2, . . . ,An pontokon irány´ıtott fa A tanulás m˝uködik polinomid˝oben!

1 Meghatározzuk az adatok seg´ıtségével Î(Ai,Aj|C)-t minden (i,j) párra, ezekkel súlyozzuk egyn-pontú teljes gráf éleit.

2 Ebben a gráfban keresünk egy maximális fesz´ıt˝ofát, erre ismertek O(n²logn) idej˝u algoritmusok.

3 Kiválasztunk egy gyökeret és ennek megfelel˝oen irány´ıtjuk a fesz´ıt˝ofa

´ eleit.

(23)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(24)

Line´ aris szepar´ al´ as

Két osztály lineárisan szeparálható, ha egy hipers´ık seg´ıtségével el tudjuk külön´ıteni a két osztály pontjait.

w₁a₁+w₂a₂+· · ·+w_na_n= 0

(25)

Perceptron

A neurális hálók ˝osének tekinthet˝o

Minden attribútum valós Ha a lineáris kombináció pozit´ıv els˝o osztály

Feladatunk megfelel˝o (nem optimális!) w súlyok keresése

Winnow módszer csupa bináris attribútumra

(26)

Rocchio

Klasszikus IR algoritmus Minden attribútum valós Minden osztályhoz protot´ıpusvektor (D_c mintaátlag)

Kicsiny szám´ıtásigény, gyors tanulás (online környezetben is)

c =βAvg_d_j_∈Cdj −γAvg_d

j∈C/ dj

(27)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(28)

Hard-Margin SVM

Bináris osztályozás {−1,+1}

Tfh. lineárisan szeparálhatók az osztályok!

A szeparáló s´ık egyenlete: D(x) =w^Tx+b = 0 Kis átalak´ıtásokkal:

y_k(w^Tx_k +b)>1 x pont t´avols´agaD(x)-t˝ol: |D(x)|/||w||

y_k(D(x_k))

||w|| ≥δ

Célunk ¹₂||w||²-t minimalizálni,y_k(w^Tx_k +b)≥1 korlátok mellett.

(Kvadratikus optimalizálási feladat, KKT, Lagrange multiplikátorok)

(29)

Soft-Margin SVM

A feltételek enyh´ıtese ξ_i nemnegat´ıv segédváltozókkal:

y_i(w^Tx_i +b)≥1−ξ_i A segédváltozók miatt mindig létezik megengedett megoldás.

1

2||w||²+CX

i

ξ_i^p→min y_k(w^Tx_k +b)≥1 i = 1,2, . . .

(30)

Nemlinearit´ as kezel´ ese magf¨ uggv´ enyekkel

Nemlineáris transzformáció (magasabb dimenzióba)

A transzformált térben az optimális szeparáló s´ık meghatározása D(x) =w^Tg(x) +b

H(x,x⁰) =g^T(x)g(x) Lineáris magfüggvények H(x,x⁰) =x^Tx⁰ Polinomiális magfüggvények H(x,x⁰) = (x^Tx⁰+ 1) RBF magfüggvények H(x,x⁰) = exp(−γ||x−x⁰||)

(31)

SVM vs. NN

El˝ony¨ok

1 Maximált általános´ıtóképesség

2 Nincs lok´alis optimum

3 Hatékonyság kiugró (outlier) értékek esetén is Hátrányok

1 Bináris döntés

2 Lass´u tanul´as

3 Param´eterek kezel´ese

Mindkét módszer univerzális függvényapproximátor

(32)

overfitting

(33)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(34)

RandomForest

M magyarázó változó,N adatsor,

Minden egyes döntési fának választunk (visszatevéses mintavételezéssel-bootstrap) egyN méret˝u mintát.

Minden csomópontban random m(<<M) attribútum közül kiválasztjuk azt, amelyik szerint vágunk.

Végül az erd˝ot összeszavaztatjuk többségi szavazással.

El˝ony¨ok

Sok attribútummal is elb´ır Pontos osztályozás

Gyors tanul´as

Túltanulás elkerülése Hátrányok

(35)

Bagging, Stacking

Bootstrap aggregating

Szintén Leo Breiman 1994-b˝ol, nemcsak döntési fát, tetsz˝oleges tanuló algoritmust alkalmazhatunk.

Túltanulás elkerülése

Stabil modelleken nem seg´ıt.

Stacking

n bels˝o modell kimenetét adjuk egy összeszavaztató modellnek

(36)

Boosting

AdaBoost Freund ´es Schapire 1995

Cél: egyszer˝u modellek adapt´ıv alkalmazásával pontos eredmény

T körben tan´ıtunk egy-egyh_t modellt, a D_t(i) eloszlással mintavételezett tan´ıtóhalmazon.

A modell hib´aja:

t= X

i:ht(xi)6=yi

Dt(i) α_t := 1

2ln(1−_t t

) Friss´ıt´es:

Di(t) = D_i(t) exp(−α_th_t(x_i)y_i) Zt

Végs˝o döntésünk:

T

(37)

Adatb´ any´ aszati eszk¨ oz¨ ok

(38)

1 Bevezet´es

3 Döntési fák

4 Bayes-h´al´ok

7 Meta algoritmusok

8 Forr´asok

(39)

Forr´ asok

Bodon Ferenc,

Adatb´any´aszati algoritmusok, (2010)

Nir Friedman, Dan Geiger, Moises Goldszmidt, Bayesian Network Classifiers,

(1997)

R. R. Bouckaert, E. Frank, M. Hall, R. Kirkby, P.

Reutemann, A. Seewald, D. Scuse, WEKA Manual for Version 3-7-1,

(2010)

Shiego Abe,

Support Vector Machines for Pattern Classification, (2005)