7. Információelemzés és -kinyerési technikák
7.2.1 A tudás kinyerése
A tudás hasznosításának első és alapvető módja a tudás kinyerése a hatal-mas információtömegből. Ennek módja napjainkban az információtechnológia eszközeivel történik.
A szervezet tudásáról készített térkép kereshető formában tárolja az egyes kompetenciaterületeket, valamint a hozzájuk tartozó tudáshordozót, amely lehet dokumentum, folyamat, helyszín és személy is.
„Az intelligens ügynök (ágens) olyan számítógépes program, amely emberi beavatkozás nélkül képes a szervezet tudását gya-rapítani, oly módon, hogy a rendelkezésre álló adatok, informáci-ók közül kiválasztja és strukturálja az értékeseket.”95
A felhasználók számára elérhető tartalmak magára a tudás létrehozására irányuló megoldások segítségével, illetve tárolási célból létrehozott tudástárak által jöhetnek létre.
Az adatbányászat nagy mennyiségű adathalmazból történő infor-máció kiválasztása, „tudás” kinyerése gépesített eszközökkel. Az adatbányászat feladata a rejtett összefüggések, kapcsolatok felde-rítése az információhalmazokban.
Az adatbányászat népszerű és gyakran alkalmazott nagyvállalati környe-zetben, annak számos területén:
kereskedelem (vásárlói szokások, attitűdök követése, terméktársítás, marketing-analízis),
pénzügy (hitelbírálat, nyereségelemzés és előrejelzés, csalások és szo-katlan alakzatok kimutatása),
orvostudomány (diagnosztika, bioinformatika),
telekommunikáció (vírus és spamvédelem, webelemzés)
oktatási, képzési terület
A tudás feltárásának egyik meghatározó része az adatbányászat a (Knowledge Discovery in Databases, KDD), amely tulajdonképpen nem egy technikai megoldás, hanem inkább egy elv arra, hogy minél több hasznos, imp-licit, rejtőzködő információt tudjunk kinyerni az adatainkból az összefüggések (asszociációk) által.
Az adatbányászat egy gyakorlatorientált terület, a statisztikával ellentét-ben kevesebb súlyt kap az elmélet. „Az adatbányászathoz soroljuk a klasztere-zés, az osztályozás, az asszociációs szabálykinyerés és az idősor-elemzés nem klasszikus (pl. regresszió számítás, simítás) feladatait.”96 Sok tévhit kering arról, hogy a különféle lekérdezések, szakértői rendszerek,a gépi tanulás módszerei és a statisztikai programok is részei az adatbányászatnak, azonban ezeket nem tekintjük annak.
95Fehér Péter Tudásmenedzsment Epilógus p.22.
96Adatbányászati technológiák. http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/1-tetel
„A tudásfeltárás (KDD) az adatbázisokban tárolt adatokból koráb-ban nem ismert, „rejtett” (implicit), potenciálisan hasznosnak vélt információk kinyerésének a folyamata.”97
A fogalom ismertetésén túl ajánlott ismerni az adatbányászat alapfeladata-it is, az összefüggések típusai szerint:
Gyakori minták kinyerése:
Ennek során meg kell találni a gyakran előforduló objektumokat, ame-lyek elemhalmazok, sorozatok, gráfok formájában fordulhatnak elő.
Attribútumok (objektumtulajdonságok) közötti kapcsolatok:
Az objektumtulajdonságok lehetnek asszociatívak és korrelációsak, il-letve funkcionális függőségek és hasonlóságok.
Az osztályozás célja az attribútumok közötti összefüggések felfedezése, amelynek során egy kitüntetett attribútum értékét kell meghatároz-nunk a többi attribútum értéke alapján. Ezt az osztályozás egy modell felépítésével teszi, amely leggyakrabban egy döntési fa.
50. ábra: Döntési fa Klaszterezés:
Objektumokat előre nem definiált csoportokba (klaszterekbe) kell so-rolnunk úgy, hogy az egy csoportba tartozó objektumok hasonlóak le-gyenek, míg a különböző csoportba kerültek különbözzenek egymástól.
97 Adatbányászati technológiák. http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/1-tetel
51. ábra: Két pont hasonlóságát egy előre megadott (távolságszerű) függvény segítségével szokás értelmezni.98
Sorozatelemzés:
A sorozatelemzésbe többféle adatbányászati feladat tartozik, az egy-máshoz hasonlító sorozatokat (akár részsorozatokat is), illetve a sorozat alakulását is vizsgálhatjuk. Különféle regressziós módszerekkel próbál-hatjuk prognosztizálni a jövőben valószínűleg előforduló eseményeket.
Eltéréselemzés99:
Azokat az elemeket, amelyek nem felelnek meg az adatbázis általános jellemzőinek, illetve tulajdonságaik nagymértékben eltérnek az általá-nostól, különc pontoknak nevezzük.
A legtöbb adatbányászati algoritmus az ilyen különc pontoknak nem tu-lajdonít nagy jelentőséget, legtöbbször zajnak vagy kivételnek kezeli őket. Van azonban egy eljárás, az eltéréselemzés, amely ezeket a különc pontokat keresi.
Az eltéréselemzés főbb alkalmazási területe a másolás, adatlopás, to-vábbá a csalások, visszaélések, vírusok, hackertámadások kiszűrése.
Webes adatbányászat:
Az interneten óriási adattömeg található, így az interneten alapuló in-formációkinyerő algoritmusok is az adatbányászat területéhez tartoz-nak, például az intelligensebb keresés, oldalak rangsorolása, illetve a hasonló tartalmú oldalak megtalálása.
98 Adatbányászati technológiák. http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/6-tetel
99 Adatbányászati technológiák. URL: http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/6-tetel
A tudásfeltárás (KDD) folyamata
A tudásfeltárás egy ciklikus, ismétlődő folyamat, amelynek meghatározott sorrendű lépései vannak:
1. Adatgyűjtés:
A felhasználási célok meghatározása, az alkalmazási terület megismerése.
2. Céladatbázis létrehozása, adatkiválasztás:
Ki kell választani a használni kívánt adatbázist, amiből a tudást ki akarjuk nyerni.
3. Adattisztítás:
A téves bejegyzések eltávolítása, hiányos mezők pótlása, zajok szűrése.
A zaj alatt az adatba épült véletlen hibát értjük. Vannak olyan zajok, ame-lyeket egyszerű felfedezni és javítani, mint például string érték ott, ahol számot várunk. Ám vannak olyan esetek, amikor a hiba észrevétlen marad, például számértékek elgépelése.
4. Adatintegráció:
A feldolgozás számára fontos lépés, több adatforrás összekapcsolása, egyesítése.
A harmadik és negyedik lépést együtt gyakran nevezik az adatok előfeldol-gozásának.
A különböző forrásból vett adatok integrációja során sok problémába üt-közhetünk: Különböző módon tárolt adatok, különböző konvenciók követése, különböző mértékegységek, elsődleges kulcsok és elnevezések használata, és különféle hibák lehetnek jelen.
5. Adattércsökkentés:
A cél szempontjából fontos attribútumok kiemelése az adatbázisból.
6. Adatbányászat:
Az adatbányászati algoritmus típusának kiválasztása: El kell dönteni, hogy a megoldandó feladat klaszterezés, vagy szabálykeresés, vagy mintakeresés, eset-leg osztályozás.
A megfelelő adatbányászati algoritmus meghatározása. Előnyeinek, hátrá-nyainak, paramétereinek vizsgálata, a futási időnek és memóriaigényének elemzése.
7. Az algoritmus alkalmazása 8. Értelmezés és kiértékelés:
A kinyert információ értelmezése, esetleg visszatérés az előző lépésekhez további finomítások céljából.
A megszerzett tudás megerősítése: összevetés elvárásokkal, előzetes isme-retekkel.
Eredmények dokumentálása és átadása a felhasználónak.
Egy adatbányászati elemzés akkor tekinthető sikeresnek, ha sikerül egy új, hasznos és valós összefüggést feltárni. Ha az algoritmust vagy annak paraméte-reit nem megfelelően választottuk meg, akkor egy másik eljárással vagy a pa-raméterek megváltoztatásával eredményre juthatunk.
„A sikeres adatbányászati projektekben az első öt lépés teszi ki az idő- és pénzráfordítások legalább 80%-át.” Ezért a tudásfeltárás során elengedhetet-len, hogy az adatbányász és az alkalmazási terület szakértője szorosan együtt-működjön, a projekt minden fázisában ellenőrizzék a betartandó irányvonala-kat.
Az elméleti összefoglaló után lássunk egy gyakorlati példát!100
Ha adatbányászati eszközökkel sikerül kimutatni, hogy X betegséggel gyak-ran együtt jár Y betegség is, akkor a terület szakértője, a kutatóorvos képes eldönteni azt, hogy ez valóban így van-e. A kutatóorvos megvizsgálhatja, hogy ugyanezen összefüggés más adathalmaz esetén is fennáll-e (esetleg direkt eb-ből a célból gyűjt adatot). Ha igen, akkor kiderítheti azt, hogy az egyik betegség során keletkezik-e olyan kémiai anyag, vagy elszaporodott-e olyan kórokozó, mely hozzájárul a másik betegség kialakulásához.
Tehát az adatbányász „ötleteket” tud adni a kutatóorvosoknak. Ezek a
„tippek” segítik a kutatóorvos munkáját, hogy ne rossz irányban induljon el a kutatásaival (pénz és idő). Az adatbányászat tehát elsősorban új, ígéretes hipo-tézisekkel járulhat hozzá a kutatásokhoz.