• Nem Talált Eredményt

2015.febru´ar26. CsimaJudit Oszt´alyoz´as

N/A
N/A
Protected

Academic year: 2022

Ossza meg "2015.febru´ar26. CsimaJudit Oszt´alyoz´as"

Copied!
27
0
0

Teljes szövegt

(1)

Oszt´ alyoz´ as

Csima Judit

BME, VIK,

Sz´am´ıt´astudom´anyi ´es Inform´aci´oelm´eleti Tansz´ek

2015. febru´ar 26.

(2)

Oszt´alyoz´as ´altal´aban

Oszt´ alyoz´ as, classification

adott egy rekordokb´ol ´all´o halmaz, a rekordoknak attrib´utumaik vannak

az egyik attrib´utum a c´elv´altoz´o, ez kategorikus attrib´utum, ez reprezent´alja, hogy melyik oszt´alyba tartozik az adott rekord c´el, hogy egy olyan modellt ´ep´ıts¨unk fel, ami k´epes megj´osolni a c´elv´altoz´o ´ert´ek´et, ha a t¨obbi attrib´utum ´ert´eke adott

(3)

P´ eld´ ak

egy beteg param´eterei alaoj´an eld¨onetni, hogy j´o- vagy rosszindulat´u daganata van-e

bankk´arty´as tranzakci´o adatait vizsg´alva eld¨onteni, hogy van-e csal´as vagy nincs (szab´alyos-e a tranzakci´o)

feh´erj´ek szerkezet´et el˝ore jelezni (alfa-h´elix, b´eta-sheet, egy´eb) az aminosav-sorrend alapj´an

ad´obevall´asban szerepl˝o ´ert´ekek alapj´an megtippelni, hogy gyan´us-e spam-sz˝ur´es

(4)

Oszt´alyoz´as ´altal´aban

Altal´ ´ anos m´ odszer

van egy csom´o rekordunk, ahol minden ´ert´ek (a c´elv´altoz´o ´ert´eke is) ismert

ez alapj´an egy modellt ´ep´ıt¨unk, amit majd olyan ´uj rekordokon haszn´alunk, amikn´el a c´elv´altoz´o ´ert´eke nem ismert, de minden m´as attrib´utumot tudunk

az ismert rekordokat k´et r´eszre osztjuk: training set ´es test set a training set-en betan´ıtunk valami modellt

a test set-en lem´erj¨uk, hogy mennyire j´o ezut´an haszn´alhatjuk ´elesben

(5)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 3

Illustrating Classification Task

Apply Model Induction

Deduction Learn Model

Model

Tid Attrib1 Attrib2 Attrib3 Class

1 Yes Large 125K No

2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No

5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No

8 No Small 85K Yes

9 No Medium 75K No

10 No Small 90K Yes

10

Tid Attrib1 Attrib2 Attrib3 Class

11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?

14 No Small 95K ?

15 No Large 67K ?

10

Test Set

Learning algorithm

Training Set

(6)

Oszt´alyoz´as ´altal´aban

K´ erd´ esek

Milyen modellek vannak?

ont´esi f´ak Bayes-oszt´alyoz´ok

Mesters´eges neur´alis h´al´ozatok (SVM: Support Vector Machine)

hogyan ´all´ıtunk el˝o egy konkr´et modellt? Pl. ha m´ar tudjuk, hogy d¨ont´esi f´at csin´alunk, akkor hogyan csin´aljuk meg; vagy egy ANN-n´el hogyan ´all´ıtjuk be a param´etereket?

Hogyan m´erj¨uk az el˝o´all´ıtott modell j´os´ag´at?

accuracy: eltal´alt c´ımk´ek sz´ama osztva az ¨osszes sor sz´am´aval error-rate: hib´as predikci´ok sz´ama osztva az ¨osszes sor sz´am´aval

(7)

D¨ ont´ esi fa defin´ıci´ o

gy¨okeres, lefel´e ir´any´ıtott (legt¨obbsz¨or) bin´aris fa

bels˝o cs´ucsok v´altoz´okkal ´es ezekhez kapcsol´od´o felt´etelekkel c´ımk´ezettek

levelek a c´elv´altoz´o valamely ´ert´ek´evel c´ımk´ezettek

(8)

ont´esi f´ak

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 6

Example of a Decision Tree

Tid Refund Marital Status Taxable

Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

10

categori cal

categori cal

conti nuou

s

class

Refund MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K Splitting Attributes

Training Data Model: Decision Tree

(9)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 7

Another Example of Decision Tree

Tid Refund Marital Status Taxable

Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

10

categori cal

categori cal

conti nuou

s

class MarSt

Refund TaxInc

YES NO

NO

NO

Yes No

Married Single,

Divorced

< 80K > 80K

There could be more than one tree that fits the same data!

(10)

ont´esi f´ak

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 9

Apply Model to Test Data

Refund

MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Refund Marital Status Taxable

Income Cheat No Married 80K ?

10

Test Data Start from the root of tree.

(11)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 10

Apply Model to Test Data

Refund

MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Refund Marital Status Taxable

Income Cheat No Married 80K ?

10

Test Data

(12)

ont´esi f´ak

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 11

Apply Model to Test Data

Refund

MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Refund Marital Status Taxable

Income Cheat No Married 80K ?

10

Test Data

(13)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 12

Apply Model to Test Data

Refund

MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Refund Marital Status Taxable

Income Cheat No Married 80K ?

10

Test Data

(14)

ont´esi f´ak

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 13

Apply Model to Test Data

Refund

MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Refund Marital Status Taxable

Income Cheat No Married 80K ?

10

Test Data

(15)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 14

Apply Model to Test Data

Refund

MarSt

TaxInc

YES NO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Refund Marital Status Taxable

Income Cheat No Married 80K ?

10

Test Data

Assign Cheat to “No”

(16)

ont´esi f´ak

Algoritmus d¨ ont´ esi fa k´ esz´ıt´ es´ ere

egy ´altal´anos algot n´ez¨unk, ennek k¨ul¨onb¨oz˝o verzi´oi futnak k¨ul¨onb¨oz˝o programokban

nem a legjobb f´at akarjuk megtal´alni (ez am´ugy is aluldefini´alt fogalom), hanem egy el´eg j´ot

moh´o m´odon, lok´alis d¨ont´eseket hozva, gyorsan

(17)

Hunt algoritmus, v´ azlat

elej´en egy cs´ucs, ide tartozik minden rekord, c´ımke a t¨obbs´egi c´ımke k´es˝obb: v´alasztunk egy cs´ucsot, amit ´erdemes lenne sz´etv´agni ´es valami attrib´utum ment´en sz´etv´agjuk egy vagy t¨obb r´eszre v´ege: ha m´ar nem ´erdemes v´agni sehol

(18)

ont´esi f´ak

Hunt algo, k´ erd´ esek

mikor ´erdemes v´agni?

melyik cs´ucsot v´agjuk, ha t¨obb lehet˝os´eg is van?

hogyan v´agunk?

az ´uj cs´ucsokat hogyan c´ımk´ezz¨uk?

mikor van v´ege?

(19)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 18

Hunt’s Algorithm

Don’t Cheat

Refund

Don’t Cheat

Don’t Cheat

Yes No

Refund

Don’t Cheat

Yes No

Marital Status

Don’t Cheat

Cheat Single,

Divorced Married Taxable

Income

Don’t Cheat

< 80K >= 80K Refund

Don’t Cheat

Yes No

Marital Status

Don’t Cheat Cheat

Single,

Divorced Married

Tid Refund Marital Status Taxable

Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

10

(20)

ont´esi f´ak

Hunt algo, k´ erd´ esek

Mikor van v´ege?

Ha m´ar nincs olyan cs´ucs, amit v´agni ´erdemes.

Mikor nem ´erdemes v´agni?

Ha nem akarunk tov´abb osztani: minden rekord azonos c´el-c´ımk´ej˝u Ha nem tudunk tov´abb osztani: olyan sorok vannak k¨ul¨onb¨oz˝o c´ımk´evel, amiknek minden m´as attrib´utuma megegyezik Melyik cs´ucsot v´agjuk, ha t¨obb lehet˝os´eg is van?

Valami bej´ar´as szerint, pl. sz´eless´egi, m´elys´egi.

Hogyan v´agunk?

Err˝ol mind´art, ez ´erdekes.

Az ´uj cs´ucsokat hogyan c´ımk´ezz¨uk?

obbs´egi c´ımk´evel.

(21)

Milyen attrib´ utum ment´ en ´ es hogyan v´ agjunk?

F˝o elv: sokf´ele v´ag´ast kipr´ob´alunk ´es a legjobb szerint v´agunk.

Mik a lehets´eges v´ag´asok? (F¨ugg a sz´oba j¨ov˝o attrib´utumok t´ıpus´at´ol.)

Mi egy v´ag´as j´os´ag´anak a m´ert´eke? Hogyan m´erj¨uk ezt?

(22)

ont´esi f´ak

Lehets´ eges v´ ag´ asok az attrib´ utum fajt´ aja szerint

bin´aris attrib´utum: igen vagy nem, k´et gyerek cs´ucs lesz kateg´oria t´ıpus´u attrib´utum:

multiway split: minden lehets´eges ´ert´ekhez egy gyerek, az ¨ures cs´ucsok c´ımk´eja a sz¨ul˝o t¨obbs´egi c´ımk´eje lesz

bin´aris split r´eszhalmaz szerint: ebb˝ol van 2t1, ahol at a lehets´eges kimenetelek sz´ama

bin´aris v´ag´as egy ´ert´ek szerint: ebb˝ol vant darab (mint marital status az el˝oz˝o p´eld´aban)

folytonos attrib´utum

bin´aris v´ag´as, az attrib´utum ´ert´eke kisebb-e egy adott k¨usz¨obn´el (mint income az el˝oz˝o p´eld´aban)

obbes v´ag´as: melyik s´avba esik az ´ert´ek

(23)

V´ ag´ as j´ os´ aga, alapelvek

t¨obbf´ele m´er˝osz´am van, mindegyik egy sz´am´ert´eket rendel a v´ag´ashoz

´ıgy a k¨ul¨onb¨oz˝o v´ag´asok ¨osszehasonl´ıthat´oak

nagyr´eszt konzisztensek egym´assal a k¨ul¨onf´ele m´er˝osz´amok

mindegyik azt m´eri, hogy mennyire lesz homog´en a l´etrej¨ov˝o gyerek polul´aci´o a c´elv´altoz´o c´ımk´ez´ese szerint

(24)

ont´esi f´ak

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 27

How to determine the Best Split

Own Car?

C0: 6 C1: 4

C0: 4 C1: 6

C0: 1 C1: 3

C0: 8 C1: 0

C0: 1 C1: 7 Car Type?

C0: 1 C1: 0

C0: 1 C1: 0

C0: 0 C1: 1 Student

ID?

...

Yes No Family

Sports

Luxury c1

c10 c20

C0: 0 C1: 1

...

c11 Before Splitting: 10 records of class 0,

10 records of class 1

Which test condition is the best?

(25)

V´ ag´ as j´ os´ aga

3 f˝o m´er˝osz´amot n´ez¨unk f˝o elv ugyanaz mindegyikn´el:

egy rekordhalmazra defini´alunk egy m´er˝osz´amot, ami az adott rekordhalmaz diverzit´as´at mutatja (ebb˝ol lesz h´arom f´ele m´er˝osz´am) egy v´ag´as j´os´ag´at azzal m´erj¨uk, hogy a sz¨ul˝ocs´ucs diverzit´asa ´es a etrej¨ov˝o gyerekcs´ucsok diverzit´asa mennyire t´er (mennyit nyer¨unk azon, ha sz´etv´agjuk a sz¨ul˝ot egy adott m´odon, mennyivel lesznek homog´enebbek a gyerekek)

el˝osz¨or azt n´ezz¨uk, hogy hogyan lehet m´erni egy rekordhalmaz, azaz a d¨ont´esi fa egy cs´ucs´anak imhomogenit´as´at

(26)

ont´esi f´ak

Inhomogenit´ as m´ er´ ese: Gini-index, entr´ opia, classification error

van egy t cs´ucsunk (egy rekordhalmaz), aminek egyc darab lehets´eges ´ert´eket felvev˝o c´elv´altoz´o szerinti homogenit´as´at akarjuk m´erni

pi jel¨oli a rekordhalmazban el˝ofordul´o i ´ert´ek˝u rekordok relat´ıv gyakoris´ag´at

Gini = 1−

c

X

i=1

pi2

entr´opia =−

c

X

i=1

pilogpi

classification error = 1− max

i∈1,...,cpi

(27)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 44

Comparison among Splitting Criteria

For a 2-class problem:

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

A második faktor, a vizuális közös figyelmi jelenet tekintetében azt láttuk, hogy szintén fő hatással bír, azaz a palatális alakváltozatot preferálták a résztvevők, ami-

Minden attrib´ utum val´ os Ha a line´ aris kombin´ aci´ o pozit´ıv els˝ o oszt´ aly. Feladatunk megfelel˝ o (nem optim´ alis!) w s´ ulyok

lehet, hogy nem baj (nem minden sorban ´ ertelmes az adott attrib´ utum) megold´ as lehet az adott ´ ert´ ek p´ otl´ asa vagy a sor t¨ orl´ ese. az is lehet, hogy el´ eg, ha

Amennyiben nem tudjuk ki´ert´ekelni minden tan´ıt´opontra az oszt´alyoz´onkat, csak azt tudjuk, hogy mennyi pontot oszt´alyozott j´ol az egyik ´es mennyit a m´asik

Ennek a megk¨ozel´ıt´esnek a h´atr´anya, hogy ha p´eld´aul egyetlen kateg´oria t´ıpus´u attrib´utum van, akkor az ugyanolyan s´ullyal fog szerepelni, mint ak´ar

(a színfalak mögé megy, és felölti valamennyi alakját, ami csak volt – pap, néger kávéüzér, burzsuj, muskétás, egyikkel sem azonosul teljesen, de Genyódij Középszar a

lapply: Egy lista minden elem´ ere lefuttatja ugyanazt a f¨ uggv´ enyt sapply: Uaz, mint az lapply, csak pr´ ob´ alja egyszer˝ ubben ki´ırni az eredm´ enyt. apply: egy

ha egy inf´ ot mag´ aban nem akarunk meg˜ orizni, csak valamihez kapcsolatva, akkor legyen csak attrib´ utum (pl. ha a st´ udi´ ok csak annyiban ´ erdekelnek minket, hogy melyik