• Nem Talált Eredményt

Oszt´alyoz´okr´ol m´eg p´ar dolog

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Oszt´alyoz´okr´ol m´eg p´ar dolog"

Copied!
19
0
0

Teljes szövegt

(1)

Csima Judit

BME, VIK,

Sz´am´ıt´astudom´anyi ´es Inform´aci´oelm´eleti Tansz´ek

2015. ´aprilis 8.

(2)

SVM (support vector machine)

ez is egy oszt´alyoz´o

ha line´arisan szepar´alhat´o a k´et oszt´aly: c´el az, hogy az ˝oket elv´alaszt´o ”senki f¨oldje” k¨ozep´en t¨ort´enjen a szepar´al´as alapfogalom a margin: legal´abb ekkora t´avols´agra van minden training pont a szepar´al´o hipers´ıkt´ol (t´erben s´ık, s´ıkon egyenes)

(3)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 67

One Possible Solution

B1

(4)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 68

Support Vector Machines

Another possible solution

B2

(5)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 69

Other possible solutions

B2

(6)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 70

Support Vector Machines

Which one is better? B1 or B2?

How do you define better?

B1

B2

(7)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 71

Find hyperplane maximizes the margin => B1 is better than B2

B1

B2

b11 b12

b21 b22

margin

(8)

Mi´ ert akarunk nagy margin-t?

jobban ´altal´anos´ıt´odik az ilyen oszt´alyoz´o: jobban viselkedik az ´uj adatokon

kisebb az es´elye az overfittingnek: nincs t´uls´agosan r´aszabva a training adatokra

(9)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 72 B1

b11 b12

0

x b w

1

x b

w wxb1

1 b x w if 1

1 b x w if ) 1

(x

f || ||2

Margin 2

w

(10)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 73

Support Vector Machines

We want to maximize:

– Which is equivalent to minimizing:

– But subjected to the following constraints:

This is a constrained optimization problem

– Numerical approaches to solve it (e.g., quadratic programming)

||2

||

Margin 2

 w



 

1 b x w if 1

1 b x w if ) 1

(

i i

xi

f

2

||

) ||

(

w 2

w L 

(11)

ez csak az intu´ıci´o volt, hogy mit akarunk, r´eszletesen nem n´ezz¨uk, hogy hogyan kell megtal´alni a legjobb szepar´al´ast

line´arisan nem szepar´alhat´o esetekre is van elm´elet

R-ben package e1071 (ugyanebben a package-ben van na´ıv Bayes oszt´alyoz´o is ´es m´eg sok minden m´as)

(12)

T¨ obb oszt´ alyoz´ o haszn´ alata egyszerre

Eddig egy oszt´alyoz´ot ´ep´ıtett¨unk ´es azzal c´ımk´ezt¨uk az ´uj eseteket Hat´ekonyabb, ha t¨obb oszt´alyoz´onk van ´es ezeket egyszerre haszn´aljuk:

base classifier-eket ´ep´ıtek

ezeket egym´ast´ol f¨uggetlen¨ul lefuttatom a t¨obbs´egi c´ımk´et v´alasztom

(13)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 80

Suppose there are 25 base classifiers

Each classifier has error rate,  = 0.35

Assume classifiers are independent

Probability that the ensemble classifier makes a wrong prediction:

 

 

25 13

25 0.06

) 1 25 (

i

i i

i  

(14)

Sz¨ uks´ eges felt´ etelek

az oszt´alyoz´ok f¨uggetlenek legyenek (ez nehezen teljes´ıthet˝o, de ennek ellen´ere seg´ıt a t¨obb oszt´alyoz´o haszn´alata)

a base classifier-ek hib´aja 0.5-n´el kisebb legyen (k¨ul¨onben egy¨utt m´eg rosszabbak, mint k¨ul¨on-k¨ul¨on)

(15)

az input v´altoz´ok v´altoztat´as´aval

ezek r´eszhalmazait figyelembe v´eve ´ep´ıtek oszt´alyoz´okat pl. random forest, ha d¨ont´esi f´akr´ol van sz´o

c´ımk´ek manipul´as´aval

ha sok c´ımke van, akkor ezeket kett´eosztom ´es minden (n´eh´any) kett´eoszt´ashoz k´esz´ıtek oszt´alyoz´ot

´

uj sor oszt´alyoz´as´an´al minden oszt´alyoz´o egy szavazatot gener´al azoknak a c´ımk´eknek, amik az ´altala v´alasztott r´eszhalmazba esnek a v´eg´en a legt¨obb szavazatot kap´o c´ımke nyer

az oszt´alyoz´ot el˝o´all´ıt´o algo m´odos´ıt´as´aval

pl. ANN-n´el a h´al´ozat topol´ogi´aja vagy kezd˝o Θ v´altoztat´asa

ont´esi f´akn´al: nem a legjobb v´ag´ast veszem, hanem a legjobbk oz¨ul egyet v´eletlenszer˝uen

training set darabol´as´aval (err˝ol mindj´art)

(16)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 79

General Idea

Original Training data

D1 D2

....

Dt-1 Dt

D

Step 1:

Create Multiple Data Sets

C1 C2 Ct -1 Ct

Step 2:

Build Multiple Classifiers

C* Step 3:

Combine Classifiers

(17)

ha nagyon sok training adat van: sz´etbont´as diszjunkt r´eszekre ´es mindb˝ol egy oszt´alyoz´o

bagging:

visszatev´eses mintav´etelez´es,nelem˝u mint´akat ´all´ıtok el˝o ´ugy, hogy

´

ujra ´es ´ujra h´uzok visszatev´essel az eredeti training setb˝ol

egym´ast´ol f¨uggetlen¨ul t¨obb, azonos elemsz´am´u mint´at k´esz´ıtek ´ıgy minden mint´aban ugyanakkora es´elye vanegy rekordnak a beker¨ul´esre boosting:

egym´as ut´an k´esz´ıtem a mint´akat, egy minta kiv´alaszt´asa f¨ugg az el˝oz˝o mint´an fel´ep´ıtett oszt´alyoz´o teljes´ıtm´eny´et˝ol

az egyes rekordok beker¨ul´esi val´osz´ın˝us´egei v´altoznak az egyes mint´akn´al

az el˝oz˝o k¨orben nem j´ol oszt´alyozott rekordok nagyobb vgel ker¨ulnek be a k¨ovetkez˝o k¨orbe

(18)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 82

Bagging

Sampling with replacement

Build classifier on each bootstrap sample

Each sample has probability (1 – 1/n)n of being selected

Original Data 1 2 3 4 5 6 7 8 9 10

Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9

Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2

Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7

(19)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 84

Records that are wrongly classified will have their weights increased

Records that are classified correctly will have their weights decreased

Original Data 1 2 3 4 5 6 7 8 9 10

Boosting (Round 1) 7 3 2 8 7 9 4 10 6 3

Boosting (Round 2) 5 4 9 4 2 5 1 7 4 2

Boosting (Round 3) 4 4 8 10 4 5 4 6 3 4

• Example 4 is hard to classify

• Its weight is increased, therefore it is more likely to be chosen again in subsequent rounds

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Adjon O(log n) elemsz´ am´ u elj´ ar´ ast, ami eld¨ onti, hogy igaz-e, hogy az els˝ o fa minden eleme nagyobb, mint a m´ asodik fa minden eleme. (Eml´ ekeztet˝ o¨ ul: a teljes

• Ha az elj´ ar´ as v´ eg´ en tal´ alt sorrendr˝ ol az der¨ ul ki, hogy nem topologikus sorrend, akkor G biztosan nem DAG, mert ha G DAG lenne, akkor a kor´ abbi (nem

Amennyiben nem tudjuk ki´ert´ekelni minden tan´ıt´opontra az oszt´alyoz´onkat, csak azt tudjuk, hogy mennyi pontot oszt´alyozott j´ol az egyik ´es mennyit a m´asik

(F´ajlokat sz´etv´agni nem szabad, minden f´ajl teljes eg´esz´eben ker¨ ul az egyik vagy a m´asik lemezre.) Amikor a soron k¨ovetkez˝o f´ajl m´ar egyik lemezre se f´er

lazy learner: csak akkor dolgozik, amikor oszt´ alyozand´ o sor j¨ on lass´ u (dr´ aga) egy sor oszt´ alyoz´ asa, de nincs hossz´ u el˝ ok´ esz´ıt´ es lehet el˝ ok´

Az ´ıgy kapott k´ et rendezett t¨ ombb˝ ol el˝ o´ all´ıtunk egyetlen rendezett t¨ omb¨ ot, ami ´ıgy m´ ar az input ¨ osszes elem´ et fogja rendezetten tartalmazni. El˝

Adott n chip, melyek k´epesek egym´ as tesztel´es´ere a k¨ovetkez˝o m´odon: ha ¨ osszekapcsolunk k´et chipet, mindk´et chip nyilatkozik a m´asikr´ol, hogy hib´ asnak tal´

Az eg´ esz´ ert´ ek˝ u programoz´ as f˝ o neh´ ezs´ ege abban rejlik, hogy a lehets´ eges megold´ asokb´ ol ´ all´ o poli´ edernek esetleg nem eg´ esz koordin´ at´ aj´