Az osztályozás és a regresszió feladata, je- je-lölések

Osztályozás és regresszió

4.1. Az osztályozás és a regresszió feladata, je- je-lölések

Az osztályozás és regresszió során n-esekkel (angolul tuple) fogunk dolgozni, amelyeket objektumoknak fogunk hívni. Adott lesz objektumok sorozata, ame-lyet tanító mintáknak, tanító pontoknak, tanító halmaznak (habár a halmaz szó használata itt helytelen, hiszen ugyanaz az objektum többször is el®fordulhat) nevezünk. A tanítópontok halmazátT-vel, a tanítópontok számát m-mel vagy

|T |-val fogjuk jelölni.

Ahogy említettük, a tanítópontok esetében ismert a magyarázott változó értéke. Valójában tanításra a címkézett adatoknak¹csak egy részét fogjuk hasz-nálni. Tehát a T tanítóhalmaz a címkézett adatoknak egy részhalmaza lesz.

A többi címkézett adatot az eljárás teszteléséhez fogjuk használni. A modell tesztelése során ugyanis azt szimuláljuk, hogy nem ismerjük a magyarázandó változó értékét: az osztályozó vagy regressziós eljárás számára megmutatjuk ugyan a teszadatokat, de a magyarázandó változó (osztályattribútum) értéke nélkül. Ahhoz, hogy mérni tudjuk, mennyire jól teljesít az eljárás, az eljárás által becsült (el®rejelzett) osztálycímkéket hasonlítjuk össze a magyarázandó változó általunk ismert értékével, lásd b®vebben a 4.10. szakaszt.

A fent említettn-es (tuple)j-edik elemétj-edik attribútumnak hívjuk. Egy attribútumra névvel is hivatkozhatunk (pl. kor, magasság, szélesség attribútu-mok), nem csak sorszámmal. Minden attribútumnak saját értékkészlete van.

Az A attribútumváltozón olyan változót értünk, amely az A értékkészletéb®l vehet fel értékeket.

Általános módon egy klasszikáló vagy regressziós módszer teljesítményét várható hasznosságával mérhetjük. Legyen a magyarázandó attribútumváltozó (osztályattribútum) Y, a magyarázó attribútumváltozó(k) pedig X⃗. (Ezen je-lölés mellett tehátX⃗ nem egyetlen attribútumot jelöl, hanem az összes magya-rázó attribútumot.) Az X⃗ komponenseit, az egyes attribútumokat X₁, . . . X_k -val jelöljük. Az egyes attribútumok egy adott objektum esetén felvett konkrét értékeit x₁, . . . , x_k-val jelöljük, ⃗x = (x₁, ..., x_k). Ha azt is megadjuk, hogy az i-dik objektum attribútumainak értékeir®l van szó, akkor ezt fels® index-szel jelöljük: ⃗xⁱ = (xⁱ₁, ..., xⁱ_k).

1Az olyan adatokat, amelyek esetében ismert a magyarázott változó (osztályattribútum) értéke, címkézett adatoknak nevezzük.

Az eljárásunkat úgy tekinthetjük, hogy egy olyan f függvényt keresünk, amely adott ⃗x-hez a hozzátartozó y értéket rendeli. Az f tehát az X⃗ érték-készletér®l az Y értékkészletére képez. Ekkor célunk E(⃗x,y)∈X×Y[U(y, f(⃗x))]

maximalizálása, aholE a várható értéket jelöli; X és Y azX⃗ és Y értelmezési tartományát;U(y,y)b pedig az el®rejelzett byhasznosságát (utility function), ha tudjuk, hogy a valódi érték y. A gyakorlatban nem ismerjük X⃗ és Y valódi együttes eloszlását, ezért legtöbbször azzal a feltételezéssel élünk, hogyT rep-rezentatív az X⃗ és Y teljes értelmezési tartományára nézve, és az adott a T tanítóhalmaz elemei felett számolt hasznosság várható értékét maximalizáljuk.

Bináris Y esetén bináris osztályozásról beszélünk.

A feladatot E(⃗x,y)∈X×Y[L(y, f(⃗x))] minimalizálásaként is megfogalmazhat-juk, ahol L az U inverze, egy veszteséget mér® függvény (loss function). Az E(⃗x,y)∈X×Y[L(y, f(⃗x))] értéket várható el®rejelzési hibának (expected prediction error) nevezzük ésV EH-val jelöljük. Mivel a várható érték változóiban additív és a konstanssal való eltolás nem változtat az optimalizáláson, ezértL(y, y) = 0 feltehet®. A hibát a gyakorlatban egy távolságfüggvénnyel (lásd 3.2 rész) de-niálják.

Regresszió esetén a két legelterjedtebb megoldás a hiba mérésére a négyzetes hiba L(y,y) = (yb −y)b² és az abszolút hibaL(y,y) =b |y−by| alkalmazása.

4.1.1. Deníció A regressziós eljárás feladata, négyzetes hiba esetén, egy olyan f függgvényt találni, amelyre az alábbi V EH(f) minimális; f-et regressziós modellnek nevezzük.

V EH(f) =E(⃗x,y)∈X×Y[(

y−f(⃗x))2]

∫

(⃗x,y)∈X×Y

(y−f(⃗x))²f_X,Y_⃗ (⃗x, y)d⃗x, dy,

ahol fX,Y⃗ (⃗x, y) a X⃗ és y együttes valószín¶ségi s¶r¶ségfüggvényét jelöli.

Osztályozás esetén négyzetes hibáról nincs értelme beszélnünk. Hibafügg-vény helyett, k osztály esetén, egy c×c méret¶ hibamátrixot (L) adhatunk meg, amely i-edik sorának j-edik eleme (L[i, j]) megadja a hiba mértékét, ha i-edik osztály helyett aj-edik osztályt jelezzük el®re. A mátrix f®átlóján nulla értékek szerepelnek. A várható osztályozási hiba

V OH(f) = E(⃗x,y)∈X×Y[L[y, f(⃗x)]].

4.1.2. Deníció Az osztályozó eljárások feladata egy olyan f függgvényt ta-lálni, amelyre a fenti V OH(f) minimális. Az f-et osztályozó modellnek ne-vezzük.

4.1.1. Az elméleti regressziós görbe

A regresszió feladatának el®z® fejezetbeli deníciója szerinti legkisebb hiba [Bishop, 2006] akkor adódik, ha

f(⃗x) = E[Y|X⃗ =⃗x], (4.1)

har-madik egyenl®ségnél felcseréltük a szorzat két tagját és felhasználtuk, hogy a E[Y|X]⃗ −f(X)⃗ függetlenY-tól, ezért a várható érték elé mozgatható. Végeze-tül ismét a E(V) =EWEV(V|W) trükköt használtuk, V =E[Y|X]⃗ és W =X⃗ helyettesítéssel.

Az f(⃗x) =E[Y|X⃗ =⃗x] függvényt elméleti regressziós görbének nevezik.

Ha a hiba mérésénél a négyzetösszeg helyett (L₂norma) a különbségösszeget használjuk (L1 norma), akkor az elméleti regressziós görbe:

f(⃗x) = median(Y|X⃗ =⃗x). (4.2)

4.1.2. Maximum likelihood osztályozás

A . fejezetben deniált várható osztályozási hibát minimalizáló függvény f(⃗x) = argminyℓ∈Y

∑c i=1

L(y_i, y_ℓ)P(y_i|X⃗ =⃗x)

A legismertebb veszteség mátrix a nulla-egy mátrix, amelyben a f®diagonálison kívül minden elem egy. Emellett a fenti kifejezés a következ®re egyszer¶s®dik:

f(⃗x) = argminyl∈Y[1−P(y_l|X⃗ =⃗x)],

vagy egyszer¶en:

f(⃗x) =y_k, amennyiben P(y_k|X⃗ =⃗x) = max

yl∈Y P(y_l|X⃗ =⃗x).

A fenti osztályozó a Bayes vagy maximum likelihood osztályozó, amely azt állítja, hogy az adott ⃗x meggyelés esetén legvalószín¶bb osztály lesz az osztályozó kimenete.

Ha a várható értéket meghatározó valódi eloszlásokat ismernénk, akkor megtalálható a legjobb osztályozó (klasszikáló). Például (azonos kovarian-ciájú) többdimenziós normális eloszlásokat feltételezve kvadratikus (lineáris) döntési szabályokat kapunk [Thomas, 2000], [Fazekas, 2000]. A gyakorlatban azonban az eloszlás paramétereit általában még akkor is becsülnünk kell, ha feltételezünk egy adott típusú eloszlást.

Adatbányászati alkalmazásokban a normális eloszlás feltételezése gyakran egyáltalán nem reális (gondoljunk a sok nominális változóra), s®t, legtöbbször nincs elegend® háttérismeretünk ahhoz, hogy bármilyen eloszlást is feltételez-hessünk. Ezért az adatbányászati módszerek nem élnek feltevésekkel az elosz-lással kapcsolatban.

Mivel a valódi eloszlásokat nem ismerjük, a most látott maximum like-lihood osztályozás nem a gyakorlatban használható osztályozó algoritmusok egyike, hanem egy elméleti lehet®ség, amelyet az elképzelhet® legjobb osztá-lyozó modellnek tekintünk. A maximum likelihood osztáosztá-lyozó leginkább azért érdekes, mert néhány gyakorlatban is létez® modellr®l bizonyítható, hogy meg-felel® feltételek mellett nem nyújt sokkal rosszabb teljesítményt, mint a maxi-mum likelihood osztályozás (lásd például a legközelebbi szomszéd módszert).

In document Kinek szól ez a jegyzet? (Pldal 105-108)