• Nem Talált Eredményt

További osztályozási protokollok

In document Kinek szól ez a jegyzet? (Pldal 180-183)

Osztályozás és regresszió

4.11. További osztályozási protokollok

Eddig azt feltételeztük, hogy az osztályozó illetve regressziós algoritmusunkat egyszer tanítjuk, majd az új objektumokat egyesével dolgozzuk fel: külön-külön kell az új példányokat osztályoznunk, illetve a magyarázandó változó értékét külön-külön kell minden egyes példányra becsülnünk. A legtöbb gyakorlati alkalmazáshoz jól illeszkedik ez a feltételezés. Ha például egy új ügyfél érke-zik egy biztosító társasághoz, az ügyfél elvárhatja, hogy kvázi-azonnal kapjon egy ajánlatot, hogy mennyibe kerülne, ha biztosítást kötne. Ilyen esetben az új ügyfelet rögtön, a többi új ügyfélt®l függetlenül kell valamelyik kockázati osztályba sorolni. Egy jelbeszédi jeleket felismer® rendszer esetében szintén elvárjuk, hogy képes legyen egyesével felismerni a jeleket: ha például egy néma ember ilyen módon kíván kommunikálni velünk, azt szeretnénk, hogy a rend-szer folyamatosan tolmácsoljon, ne csak sok száz vagy sok ezer jel elmutogatása után. A példák sorát hosszasan lehetne folytatni. Vannak azonban ezekt®l el-tér® gyakorlati alkalmazások, amelyekben sok, ismeretlen osztályba tartozó ob-jektumot kell osztályoznunk kvázi-egyidej¶leg, azaz nem számít, hogy milyen sorrendben dolgozza fel a rendszer az ismeretlen osztályba tartozó objektumo-kat. Ilyen esetekben az adatok strukturájának jobb feltárását az ismeretlen osztályokba tartozó objektumok is segíthetik.

4.11.1. Semi-supervised osztályozás

A semi-supervised (részben felügyelt, félig felügyelt) tanítás röviden: SSL esetén adott egy T tanítóhalmaz, és tudjuk, hogy a tanítóhalmazbeli ob-jektumok (példányok) mely osztályokba tartoznak. Azt feltételezzük, hogy egyszerre nem csak egyetlen, hanem sok címkézetlen objektummal van dol-gunk, amelyekr®l el kell eldöntenünk, hogy melyik osztályba tartoznak. Az osztályozó legel®ször azt az objektumot osztályozza, amelynek osztályozásá-ban a leginkább biztos. Egy k = 5 legközelebbi szomszédot gyelembe vev®

legközelebbi szomszéd osztályozó például biztosabb egy olyan objektum osz-tályozásában, amelynél mind az 5 legközelebbi szomszéd egyazon osztályba tartozik és a legközelebbi szomszédok nagyon közel vannak az osztályozandó objektumhoz, mint egy olyan objektum osztályozásában, amelynek a 5 legköze-lebbi szomszédja közül 2 az egyik osztályba tartozik, 3 a másikba, és ráadásul a szomszédok kicsit távolabb is vannak. Miután az osztályozó osztályozta azt az objektumot, amelynek osztályozásában leginkább biztos, ezt az objektu-mot, az osztályozó által megállapított osztálycímkével, hozzávesszük a tanító halmazhoz, újratanítjuk a modellt (vagy módosítjuk a modellt az új tanító-objektumnak megfelel®en), és a maradék címkézetlen objektumok közük ismét azt osztályozzuk, amelyiknek az osztályozásában leginkább biztos a modell.

4.21. ábra. Példa egy olyan esetre, amikor a semi-supervised protokoll szerinti osztályozás jobban teljesít, mint a konvencionális protokoll szerinti osztályo-zás. [Marussy és Buza, 2013] Az ábra részletes magyarázatát lásd a szövegben.

Az SSL számításigénye, a konvencionális osztályozáshoz képest, általában jelent®sen nagyobb. Ugyanakkor a semi-supervised osztályozás során az osztá-lyozó algoritmus képes a címkézetlen adatokban rejl® struktúrát is gyelembe venni, ami különösen akkor lényeges, ha kevés a címkézett tanítóadat, vagy a tanítóadatbázis nem reprezentatív. Erre láthatunk egy példát a 4.21. ábrán.

A 4.21. ábran az adatbázisbeli objektumok egy kétdimenziós tér pontjainak felelnek meg (két szám típutú magyarázó attribútummal rendelkeznek). Min-den objektum két osztály valamelyikébe tartozik: az egyik osztályba tartozó objektumokat háromszögekkel, a másikba tartozókat karikákkal jelöltük. A teli háromszögek illetve teli karikák jelzik a tanítóhalmazba tartozó, címkézett ob-jektumokat, x-szel jelöltük azokat az objektumokat amelyekr®l az algoritmus adott lépésben még nem döntötte el, hogy mely osztályba tartoznak. Üres há-romszögek és karikák az algoritmus döntéseit jelölik. A tanítóhalmazt az (a) alábra mutatja. A (b) alábrán azt látjuk, hogy egy konvencionális protokoll szerinti osztályozó, amely egyenként tekinti az osztályozandó objektumokat, a körív mentén alul elhelyezked® karikákat minden bizonnyal a háromszögek

közé sorolná, hiszen ezekhez jóval közelebb van a tanítóhalmazbeli hároszög, mint a tanítóhalmazbeli kör. Ezzel szemben a semi-supervised protokoll sze-rinti osztályozás során a körív mentén végighaladva, minden iterációban a már felismert karikákhoz legközelebbi karikát ismernénk fel karikaként és ezáltal a semi-supervised protokoll szerinti osztályozó képes helyesen osztályozni az ob-jektumokat. A (c)-(e) alábrák a semi-supervised osztályozás els®, második, illetve harmadik iterációit mutatják, az (f) alábra pedig a semi-supervised osz-tályozás végerdményét.

Az SSL osztályozásnak számos változata létezik attól függ®en, hogy miként formalizáljuk azt, hogy egy osztályozó mennyire biztos egy objektum osztályo-zásában.

4.11.2. Active Learning

A semi-supervised learning-hez hasonlóan az active learning esetén is abból in-dulunk ki, hogy nem egyesével osztályozzuk az objektumokat, hanem egyszerre osztályozunk sok objektumot. A semi-supervised esethez hasonlóan adott né-hány címkézett objektum, egy viszonylag kicsit tanítóadatbázis, amely nem feltétlenül reprezentatív. Miközben az algoritmus folyamatosan osztályozza az objektumokat, néhány kérdést feltehet a felhasználónak: néhány objektum tényleges osztálycímkéjére rákérdezhet. Nyilván azokra érdemes rákérdezni, amelyek osztályozásában a leginkább bizonytalan az algoritmus, amelyek tény-leges osztálycímkéjének ismerete sokat javíthat a modell pontosságán.

A semi-supervised learning-hez hasonlóan az active learning-nek is számos változata ismert. Az active learning eljárások kiértékelése némiképp eltér a konvencionális osztályozók kiértékelését®l. Active learning eljárások által adott osztályozás min®ségét általában a felhasználó felé feltett kérdések számának függvényében szokták ábrázolni. Akkor mondjuk, hogy az egyik active learning eljárás jobb a másiknál, ha ugyanannyi kérdést feltéve a felhasználónak az els®

eljárás tendenciózusan jobban osztályoz, mint a második.

4.11.3. Transfer learning

Néhány esetben egy-egy terület, amelyen osztályozókat kívánunk használni oly-annyira új, hogy még nem állnak rendelkezésre megfelel®, címkézett adatok, amelyeket tanítóadatként használhatnánk. Szerencsés esetben azonban van-nak címkézett adataink egy hasonló területr®l, amely alapján készíthetünk egy osztályozót, amelyet adaptálhatunk a célterületre. Erre példa lehet az, amikor egy bank egy új országban els® ókjait nyitja meg: ekkor még nem áll rendel-kezésére elegend® adat az adott országból, amely alapján egy hitelbírálati osz-tályozó algoritmust készíthessen, ugyanakkor más országokból, ahol korábban

már végzett tevékenységet, b®ségesen állhat rendelkezésre adat, amely alapján egy osztályozó algoritmust lehet tanítani, majd az elkészül osztályozó modellt a helyi igényekre lehet szabni. Az ilyen eljárást nevezik transfer learning-nek:

a célterülethez képesti rokonterületen tanított osztályozó modellt viszünk át ("transfer") egy új területre.

4.11.4. Többosztályos és többcímkés osztályozás

Az osztályok száma és viszonya szerinti legegyszer¶bb eset a már említett biná-ris osztályozás, amikor két osztály adott, és egy-egy objektum (pédány) vagy az egyik vagy a másik osztályba tartozik (de nem mindkett®be egyszerre!).

Többosztályos, multiclass problémáról akkor beszéltünk, amikor kett® helyett több osztályunk volt, és egy-egy példány pontosan egy osztályba tartozott.

A többcímkés, multilabel, osztályozási feladatok annyiban különböznek a multiclass problémáktól, hogy egy objektum egyidej¶leg több osztályba is tar-tozhat. Tekintsük pédaként azt az esetet, amikor embereket osztályozunk és az osztályok különböz® betegségek szerinti kockázati csoportoknak felelnek meg.

Egy ember egyidej¶leg több betegség szerint is tartozhat a veszélyeztetettek csoportjába, így tehát egy objektum (egy ember példában) több osztályba is tartozhat egyidej¶leg.

A multilabel osztályozási feladatokat a legegyszer¶bb esetben az osztályon-kénti bináris osztályozásra vezethetjük vissza: az els® bináris osztályozó eldönti, hogy egy adott ember az els® betegség szerint veszélyeztetett-e, a második els® bináris osztályozó eldönti, hogy egy adott ember a második betegség sze-rint veszélyeztetett-e, stb. Az egymástól független bináris osztályozásokra való visszavezetés azonban általában nem optimális: nem veszi gyelembe, hogy az osztálycímkék legtöbbször nem függetlenek egymástól, hanem valamilyen formában korrelálnak egymással.

4.12. Ajánlórendszerek és ritka mátrixok

In document Kinek szól ez a jegyzet? (Pldal 180-183)