• Nem Talált Eredményt

Mér®számok

In document Kinek szól ez a jegyzet? (Pldal 172-177)

Osztályozás és regresszió

4.10. Tanuló algoritmusok értékelése

4.10.3. Mér®számok

A legfontosabb mutatószám az osztályozó pontossága (accuracy), amely a jól osztályozott objektumok számának arányát adja meg az összes objektum szá-mához viszonyítva. A pontossághoz nagyon hasonló mér®szám a hibaarány (misclassication ratio, error rate), amely a helytelenül osztályozott objektu-mok aránya. Nyilván:

hibaarány= 1pontosság.

A pontosság és hibaarány megtéveszt® lehet. A magas pontosság (illetve alacsony hibaarány) nem biztos, hogy a módszerünk min®ségének az eredmé-nye. Ha például bináris osztályzás esetében az egyik osztály el®fordulásának valószín¶sége 90%, akkor egy 88% pontosságú osztályozó rossz osztályozó, hi-szen pontossága rosszabb, mint azon naív osztályozóé, amely mindig a gyako-ribb osztályra tippel. Egy még naívabb osztályozó a véletlen osztályozó, amely a C osztályt pc valószín¶séggel választja, ahol pc a C osztály el®fordulásának valószín¶sége. A valószín¶séget relatív gyakorisággal közelítik. A véletlen osz-tályozó várható pontossága az el®bbi példában: 0.90.9 + 0.10.1 = 82%.

Egy osztályozó kappa statisztikája az osztályozó pontosságát a véletlen osz-tályozóhoz hasonlítja. Tegyük fel, hogy a tanítóhalmazon az egyes osztályok relatív gyakoriságaip1, p2, . . . , pkés a tanítóhalmazon az osztályok el®fordulása n1, n2, . . . , nk. Legyen N = ∑k

i=1ni és M = ∑k

i=1nipi. A kappa statisztikát ekkor a

T −M N −M

adja, aholT-vel a helyesen osztályzott pontokat jelöljük. A véletlen osztályozó kappa statisztikája nulla, a tökéletes osztályozóé pedig egy.

A pontosság (és hibaarány) nem csak azért lehet félrevezet®, mert a naív illetve véletlen modellek pontossága nagy (hibaaránya kicsi) lehet és ezekhez

kell viszonyítanunk. Kiegyensúlyozatlan osztályeloszlás esetén sem célszer¶ a pontosság (és hibaarány) kasználata. Képzeljük el, hogy egy ritka betegség diagnosztizálására valamilyen osztályozó algoritmust használunk. A ritka be-tegség a népesség mindössze0,1%-át érinti. Vajon melyik osztályozó a jobb:

(i) amelyik mindenkit egészségesnek osztályoz, vagy

(ii) amelyik az esetek 5%-ában téved ugyan, de a betegek nagy részét felismeri?

Az els® modell, nyilván, teljesen használhatatlan, míg a második sokat segíthet a betegség diagnosztikájában, még akkor is, ha nem tökéletes. Ezzel szemben az els® modell pontossága mégis magasabb, mint a másodiké.

Az el®bbi mér®számoknál részletesebben írja le egy osztályozó teljesítmé-nyét az ún. keveredési mátrix (confusion matrix), amely annyi sorból és osz-lopból áll, amennyi az osztályok száma. Az i-edik sor j-edik eleme adja meg azoknak a pontoknak a számát, amelyeket az osztályozó a j-edik osztályba sorol, holott azok az i-edik osztályba tartoznak. A f®átlón található elemek adják meg a helyesen osztályozott pontok számát. Alább egy keverési mátri-xot láthatunk:

Felismert (el®rejelzett)

osztály

a b c ∑

a 88 10 2 100

Tényleges b 14 40 6 60 osztály c∑ 18 10 12 40

120 60 20

Bináris osztályozás esetére, amikor az osztályozó kimenete nulla vagy egy (igaz/hamis, vagy pozitív/negatív) további fogalmakat deniálunk. Többosz-tályos feladat esetén kijelölhetünk egy kitüntetett (pozitív) osztályt, és minden egyéb osztályt összevonhatunk negatív osztályként, és ekkor a bináris esethez hasonlóan használhatjuk az alábbi megnevezéseket. A jól osztályozott objek-tumok számát TP-vel (True Positiv) és TN-nel (True Negative) jelöljük attól függ®en, hogy melyik osztályba tartoznak. A rosszul osztályozott objektumok jelölése FP, FN (False Positive, False Negative). A következ® keveredési mátrix összefoglalja a jelöléseket:

Felismert (el®rejelzett)

osztály

+

Tényleges + TP FN

osztály FP TN

A felidézést vagy megbízhatóságot (angolul recall vagy true positive rate), amelyet bináris osztályozásnál érzékenységnek (sensitivity) is hívnak az

R = T P T P +F N

hányados adja. A precisiont 19 a következ®képpen számolhatjuk:

P = T P T P +F P.

E két érték parametrikus harmonikus közepét F-mértéknek (F-measure) ne-vezzük:

F = 1

αP1 + (1−α)R1 .

A leggyakrabban, amikor ennek ellenkez®jét nem jelezzük, α = 0.5 mellett számítjuk az F-measure-t. A F PF P+T N hányadost selejtnek (fallout, false positive rate) is nevezik. A korábban már tárgyalt pontosság (accuracy) is deniálható a TP-k és TN-k segítségével: T P+T NN .

Tekintsünk egy olyan osztályozó modellt, amely nem csak egy diszkrét dön-tést ad eredményül, hogy egy adott teszthalmazbeli objektum (példány) a po-zitív vagy negatív osztályba tartozik, hanem egy folytonos kimenetet eredmé-nyez, amely annál nagyobb, minél több eséllyel tartozik (a modell szerint) egy adott objektum (példány) a pozitív osztályba. A TP-k, TN-k, FP-k és FN-k száma ekkor annak függvénye, hogy milyen θ küszöbérték felett tekintjük a modell kimenetét pozitívnak. A true positive rate-t (recall, felidézés, megbíz-hatóság) jelöljük TPR-rel: T P R=T P/(T P+F N). Ehhez hasonlóan jelöljük FPR-rel (false positive rate) a FP-k arányát az összes negatív osztályba tar-tozó objektumhoz képest: F P R= F P/(F P +T N). Nyilván TPR és FPR is aθ küszöbérték függvény. A TPR-t ábrázolhatjuk FPR függvényében. Az így kapott görbét nevezik Receiver-Operator Curve-nek vagy röviden ROC görbé-nek. Az AUC (Area Under the Curve) az adatbányászatban (hacsak ennek ellenkez®jét nem jelzik) a ROC görbe alatti területre vonatkozik. Tökéletes osztályozó modell esetében, amikor található olyan küszöbszám, amely mellett a modell kimenete tökéletesen megegyezik a tényleges osztályokkal, az AUC értéke 1, véletlenszer¶ kimenetet adó modell esetében pedig 0.5. Az AUC-ra mutat példát a 4.20. ábra.

19Magyarra mind a precision-t, mind az accuracy-t pontosságnak fordíthatjuk. Vegyük azonban észre, hogy a precision és accuracy nem azonos. A jegyzetben a precision-ra angol nevével hivatkozunk, csak az accuracy-t fordítjuk magyarra.

4.20. ábra. Egy folytonos kimenetet adó modell és AUC-ja. A tényleges osztály-címkék a táblázat Valóság megnevezés¶ sorában láthatók, a modell kimenetét a Modell sor mutatja. Minél nagyobb a kimenet értéke, a modell szerint annál nagyobb eséllyel tartozik az adott objektum a pozitív osztályba. A táblázat-ban a TP-k arányát (TPR) és FP-k arányát (FPR) számoltuk ki különböz® θ küszöbértékekre: els® oszlop: a modell az összes objektumot (példányt) pozi-tívnak nyilvánítja, második oszlop: a legkisebb kimenettel rendelk® objektumot (példányt) kivéve minden objektumot pozitívnak nyilvánít a model, stb.

Hiba mérése valószín¶ségi döntési rendszerek esetén

Valószín¶ségi döntési rendszerek esetén a kimenet egy valószín¶ségi eloszlás, nem pedig egy konkrét osztály. Nem azt mondjuk, hogy adott attribútum-értékekkel rendelkez® ügyfél kockázatos, hanem azt, hogy 80%-ot adunk annak valószín¶ségére, hogy kockázatos és 20%-at arra, hogy nem. Ha az osztályok számak, akkor az osztályozás eredménye egyk dimenziós valószín¶ségi vektor, ezen valószín¶ségi vektor elemeinek összege 1. Hogyan határozzuk meg a hibát ilyen esetben?

Négyzetes veszteségfüggvény Tetsz®leges elem konkrét osztályát is le-írhatjuk egy valószín¶ségi vektorral. Ha az elem a j-edik osztályba tartozik,

akkor a valószín¶ségi vektor j-edik eleme legyen 1, a többi pedig nulla. Az osztályozás hibája ekkor az elem osztályához tartozó vektor és az osztályo-zás eredményeként kapott vektor különbségének normája lesz. Általában az euklideszi normát használjuk és a négyzetgyök számításától eltekintünk:

Er(p,a) =

k i=1

(pi−ai)2,

ahol p a valószín¶ségi döntési rendszer kimenete, az a pedig a tényleges osztályt reprezentáló vektor, pi illetve ai ezen vektorok komponensei. Mivel az ai-k közül egyetlen érték 1, a többi nulla, a négyzetes veszteségfüggvény átírható 12pjk

i=1p2i, ahol j-vel az osztály sorszámát jelöltük.

Ha az osztályattribútum teljesen független a többi attribútumtól, akkor a négyzetes veszteségfüggvény azokat az osztályozásokat fogja jutalmazni, ame-lyek a bemenett®l függetlenül olyan valószín¶ségi vektorokat állítanak el®, amely megfelel az osztályattribútum eloszlásfüggvényének, azaz a kimeneti vek-tori-edik eleme adja meg azi-edik osztály el®fordulásának valószín¶ségét. Nem nehéz ezt az állítást belátni. Jelöljük az i-edik osztály el®fordulásának való-szín¶ségétpi-vel. A várható értéke a négyzetes veszteségfüggvénynek egy adott tesztelem esetén: értéke csak egy vagy nulla lehet. A végs® képletb®l látszik, hogy a várható érték akkor lesz minimális, ha pi =pi mindeni-re.

Hiba mérése regresszió esetében

Amikor a magyarázandó attribútum szám típusú, akkor a leggyakrabban hasz-nált hiba a négyzetes hibaátlag (vagy annak gyöke). Az elterjedt használat oka, hogy a négyzetes hibaösszeg könnyen kezelhet® matematikailag gondoljuk csak a lineáris regresszióra, amely sok regressziós módszer kiindulópontjaként szolgál. Ha csökkenteni szeretnék a különc pontok által okozott hiba mértékét, akkor használhatunk átlagos hibakülönbséget is.

Többször láttuk, hogy nem az abszolút hiba érdekel minket, hanem a re-latív hiba. Azt gondoljuk, hogy ugyanakkora hibát vétünk, ha 200 helyett

220-at jósolunk, mint amikor 1 helyet 1.1-et. A fenti hibamértékek és azok relatív változatainak pontos képlete a következ® táblázatban látható. A képle-tekben a teszthalmaz (amely származhat például kereszt-validációból) azi-edik objektumának magyarázandó változójának tényleges értékétyi-vel, ugyanezen objektum magyarázandó változójának a modell által becsült értékét ybi-vel je-löljük.

hibamérték képlet

átlagos négyzetes hiba 1n

i relatív négyzetes hiba i

(

A korrelációs együttható (amely mínusz egy és plusz egy közé esik) kilóg a sorból két dolog miatt. Egyrészt ez a mérték skála invariáns, azaz, ha minden jósolt értéket megszorzunk egy adott konstanssal, akkor a korrelációs együtt-ható nem változik. Másrészt minél jobb az osztályozó módszer, annál közelebb lesz az együttható egyhez. A többi mérték értéke 0 lesz a tökéletes osztályozó estében.

In document Kinek szól ez a jegyzet? (Pldal 172-177)