Egyéb módszerek - Döntési fák - Osztályozás és el ˝orejelzés 112

10. Osztályozás és el ˝orejelzés 112

10.3. Döntési fák

10.3.6. Egyéb módszerek

Az alább ismertetett módszereket ritkábban szokták adatbányászati céllal alkalmazni, mint a dön-tési fákat, mesterséges neuronhálózatokat vagy Bayes-i hálózatokat.

k-legközelebbi szomszéd módszere

A k-legközelebbi szomszéd módszere egy „lusta” klasszifikáló eljárás, amely nem épít modellt.

Alapelgondolása, hogy a hasonló attribútumú objektumok hasonló tulajdonságokkal bírnak. A hason-lóságot (igazából a különböz ˝oséget) a klaszterelemzésnél (lásd ??. fejezet). is használt távolságfügg-vénnyel mérjük. A tanuló adatbázist eltároljuk és amikor egy ismeretlen objektumot kell klasszifikál-nunk, akkor megkeressük a távolságfüggvény szerinti k darab legközelebbi pontot, és az objektumot abba a kategóriába soroljuk, amely a legtöbbször el ˝ofordul a k szomszéd között (többségi szavazás). A módszer egyfajta lokális s˝ur˝uségfüggvény becsl ˝o eljárásnak is tekinthet ˝o. A magyarázó attribútumok számának növekedésével a (??. szakaszban tárgyalt) problémák léphetnek fel.

Genetikus programozás

A genetikus algoritmusok nem tekinthet ˝ok valódi klasszifikáló eljárásnak, hanem inkább egy módszernek arra, hogy az adatokat jól leíró modellt keressünk (optimalizációs eljárás) [38]. A kü-lönféle modellek egy populációt alkotnak, a modellek tulajdonságait / paramétereit ún. génekben kódoljuk és a biológiai evolúció mintájára olyan mechanizmusokat m˝uködtetünk, amelyek az élet-revalóbb (adatokat jobban leíró) modellek túlélésének kedveznek (szelekció). A keresést a modellek kombinálása (génkeresztezés, crossover) és a paraméterek véletlenszer˝u változtatása (mutáció) teszi teljessé. Igazán nagyméret˝u feladatok megoldására az eljárás nagy számításigénye miatt nem alkal-mas.

Szabályalapú technikák

Habár az asszociációs szabályok (lásd ??. fejezet) nem feltétlenül fejeznek ki oksági kapcsolato-kat, a tapasztalatok szerint klasszifikálók építésére is felhasználhatók [43]. Egy lehetséges megközelí-tés szerint olyan asszociációs szabályokat bányászunk, amelyek következményrésze a magyarázandó változó, majd a viszonylag sok speciális szabályból kevesebbet készítünk a hasonló feltételrészek összevonásával (ARCS eljárás). Más módszer szerint a magyarázott változó különböz ˝o értékeihez tartozó tanító esetekben külön-külön keresünk gyakori termékhalmazokat. Ha egy termékhalmaz gya-korisága gyökeresen eltér a két mintában, akkor azt feljegyezzük, mint jellemz ˝o tulajdonságot. Egy elem klasszifikálásakor pedig az elemben megfigyelhet ˝o jellemz˝o termékhalmazok alapján döntünk.

(CAEP módszer.) Fuzzy logika

A fuzzy (életlen) logika célja a természetes nyelvekben mindennaposan használt bizonytalan fo-galmak megragadása [38]. A hagyományos logika / halmazelmélet megközelítése szerint ha a jöve-delmet három kategóriára (alacsony, közepes, magas) osztjuk fel, akkor egy adott jövedelem (pl. : havi X ezer forint) egy és csak egy kategóriába tartozik. Ugyanakkor minden ilyen felosztás meglehet ˝osen önkényes, például ha 99000 Ft jövedelem alacsonynak számít, akkor a 100000 Ft miért közepes ? A fuzzy logikában a kategóriák határa nem éles, a havi 99000 és 100000 Ft valamilyen mértékben egy-szerre alacsony és közepes is. A fuzzy logika a klasszikus logika következtetési szabályait terjeszti ki ezen mértékekkel való számolásra és lehet ˝ové teszi, hogy absztrakt fogalmakat kezeljünk.

Klaszterezés

Klaszterezésen elemek csoportosítását értjük. Úgy szeretnénk a csoportosítást elvégezni, hogy a hasonló elemek ugyanazon, míg az egymástól eltér ˝o elemek külön csoportba kerüljenek. Sajnos a

„jó” csoportok kialakítása nem egyértelm˝u feladat, hiszen az emberek gyakran más-más szemponto-kat vesznek figyelembe a csoportosításnál. Ugyanazt azt adathalmazt, alkalmazástól és szokásoktól függ˝oen, eltér˝oen klasztereznék az emberek. Például az 52 darab francia kártyát sokan 4 csoportra osztanák (szín szerint), sokan 13-ra (figura szerint). A Black Jack játékosok 10 csoportot hoznának létre (ott a 10-es, bubi, dáma, király között nincs különbség), míg a Pikk Dáma játékot kedvel ˝ok hármat (pikk dáma, a k ˝orök és a többi lap). Klaszterezéskor tehát az adathalmaz mellett meg kell adnunk, hogy miként definiáljuk az elemek hasonlóságát, továbbá, hogy mi alapján csoportosítsunk (összefügg ˝o alakzatokat keressünk, vagy a négyzetes hibát minimalizáljuk stb.).

A jóság egzakt definíciójának hiánya mellett nagy problémát jelent az óriási keresési tér. Ha n pontot akarunk k csoportba sorolni, akkor a lehetséges csoportosítások számát a Stirling számok adják meg :

Sn^(k)= 1 k!

∑

k i=0

(−1)^k⁻ⁱ µk

¶ iⁿ.

Még egy egészen pici adathalmaz mellett is megdöbbent ˝oen sokféleképpen csoportosíthatunk. Példá-ul 25 elemet 5 csoportbaS₂₅⁽⁵⁾=2,436,684,974,110,751 különböz ˝o módon partíciónálhatunk. Ráadá-sul, ha a csoportok számát sem tudjuk, akkor a keresési tér még nagyobb (∑²⁵_k=1S₂₅^(k)>4·10¹⁸).

Szükség van azonban az elemek automatikus csoportosítására, így a problémákon túl kell lépni.

Objektív definíciót kell adnunk az elemek hasonlóságának mértékére és a klaszterezés min ˝oségére.

Amennyiben megfelel ˝o matematikai modellbe ágyaztuk a feladatot, lehet ˝oség nyílik olyan algoritmu-sok megkeresésére, amelyek jól és gyorsan oldják meg a feladatot. Ezekr ˝ol az algoritmualgoritmu-sokról és a hasonlóság megállapításának módjáról szól ez a fejezet.

Klaszterezés során csoportokba, osztályokba soroljuk az elemeket, tehát osztályozást végzünk.

Az eredeti osztályozási feladattól (lásd el ˝oz˝o fejezet) az különbözteti meg a klaszterezést, hogy nincs megadva, hogy melyik elem melyik osztályba tartozik (tehát nincs egy tanító, aki helyes példákkal segíti a tanulásunkat), ezt nekünk kell meghatároznunk. Ezért hívják a klaszterezést felügyelet nélküli tanulásnak (unsupervised learning) is.

A klaszterezés az adatbányászat legrégebbi és leggyakrabban alkalmazott része. Számos helyzet-ben alkalmazzák, így csoportosítanak weboldalakat, géneket, betegségeket stb. Az egyik legdinamiku-sabban fejl˝od˝o terület azonban a személyre szabott szolgáltatásoké, ahol az ügyfeleket, ill. vásárlókat kategorizálják, és az egyes kategóriákat eltér ˝oen kezelik. A klaszterezésre azért van szükség, mert az

124

ügyfelek számossága miatt a kézi kategorizálás túl nagy költséget jelentene.

Gyakran nem az a fontos, hogy az egyes elemeket melyik csoportba soroljuk, hanem az, hogy mi jellemz˝o a különböz ˝o csoportokra. Például egy banki stratégia kialakításánál nem érdekel ben-nünket, hogy Kis Pista melyik csoportba tartozik, hanem csak az, hogy milyen ügyfélcsoportokat célszer˝u kialakítani és ezekre a csoportokra mi jellemz ˝o. A klaszterezés segítségével egy veszteséges tömörítést végeztünk. A teljes ügyfeleket tartalmazó adatbázist egy kisebb, átláthatóbb, emészthet ˝obb ügyfélcsoport adatbázissá alakítottuk.

A fejezet további részében el ˝oször egy meghökkent ˝o kutatási eredményr ˝ol számolunk be, majd a hasonlóság meghatározásáról beszélünk végül rátérünk a legismertebb klaszterez ˝o algoritmusokra.

In document Bodon Ferenc (Pldal 123-126)