• Nem Talált Eredményt

7. Információelemzés és -kinyerési technikák

7.2.1 A tudás kinyerése

A tudás hasznosításának első és alapvető módja a tudás kinyerése a hatal-mas információtömegből. Ennek módja napjainkban az információtechnológia eszközeivel történik.

A szervezet tudásáról készített térkép kereshető formában tárolja az egyes kompetenciaterületeket, valamint a hozzájuk tartozó tudáshordozót, amely lehet dokumentum, folyamat, helyszín és személy is.

„Az intelligens ügynök (ágens) olyan számítógépes program, amely emberi beavatkozás nélkül képes a szervezet tudását gya-rapítani, oly módon, hogy a rendelkezésre álló adatok, informáci-ók közül kiválasztja és strukturálja az értékeseket.”95

A felhasználók számára elérhető tartalmak magára a tudás létrehozására irányuló megoldások segítségével, illetve tárolási célból létrehozott tudástárak által jöhetnek létre.

Az adatbányászat nagy mennyiségű adathalmazból történő infor-máció kiválasztása, „tudás” kinyerése gépesített eszközökkel. Az adatbányászat feladata a rejtett összefüggések, kapcsolatok felde-rítése az információhalmazokban.

Az adatbányászat népszerű és gyakran alkalmazott nagyvállalati környe-zetben, annak számos területén:

 kereskedelem (vásárlói szokások, attitűdök követése, terméktársítás, marketing-analízis),

 pénzügy (hitelbírálat, nyereségelemzés és előrejelzés, csalások és szo-katlan alakzatok kimutatása),

 orvostudomány (diagnosztika, bioinformatika),

 telekommunikáció (vírus és spamvédelem, webelemzés)

 oktatási, képzési terület

A tudás feltárásának egyik meghatározó része az adatbányászat a (Knowledge Discovery in Databases, KDD), amely tulajdonképpen nem egy technikai megoldás, hanem inkább egy elv arra, hogy minél több hasznos, imp-licit, rejtőzködő információt tudjunk kinyerni az adatainkból az összefüggések (asszociációk) által.

Az adatbányászat egy gyakorlatorientált terület, a statisztikával ellentét-ben kevesebb súlyt kap az elmélet. „Az adatbányászathoz soroljuk a klasztere-zés, az osztályozás, az asszociációs szabálykinyerés és az idősor-elemzés nem klasszikus (pl. regresszió számítás, simítás) feladatait.”96 Sok tévhit kering arról, hogy a különféle lekérdezések, szakértői rendszerek,a gépi tanulás módszerei és a statisztikai programok is részei az adatbányászatnak, azonban ezeket nem tekintjük annak.

95Fehér Péter Tudásmenedzsment Epilógus p.22.

96Adatbányászati technológiák. http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/1-tetel

„A tudásfeltárás (KDD) az adatbázisokban tárolt adatokból koráb-ban nem ismert, „rejtett” (implicit), potenciálisan hasznosnak vélt információk kinyerésének a folyamata.”97

A fogalom ismertetésén túl ajánlott ismerni az adatbányászat alapfeladata-it is, az összefüggések típusai szerint:

Gyakori minták kinyerése:

 Ennek során meg kell találni a gyakran előforduló objektumokat, ame-lyek elemhalmazok, sorozatok, gráfok formájában fordulhatnak elő.

Attribútumok (objektumtulajdonságok) közötti kapcsolatok:

 Az objektumtulajdonságok lehetnek asszociatívak és korrelációsak, il-letve funkcionális függőségek és hasonlóságok.

 Az osztályozás célja az attribútumok közötti összefüggések felfedezése, amelynek során egy kitüntetett attribútum értékét kell meghatároz-nunk a többi attribútum értéke alapján. Ezt az osztályozás egy modell felépítésével teszi, amely leggyakrabban egy döntési fa.

50. ábra: Döntési fa Klaszterezés:

 Objektumokat előre nem definiált csoportokba (klaszterekbe) kell so-rolnunk úgy, hogy az egy csoportba tartozó objektumok hasonlóak le-gyenek, míg a különböző csoportba kerültek különbözzenek egymástól.

97 Adatbányászati technológiák. http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/1-tetel

51. ábra: Két pont hasonlóságát egy előre megadott (távolságszerű) függvény segítségével szokás értelmezni.98

Sorozatelemzés:

 A sorozatelemzésbe többféle adatbányászati feladat tartozik, az egy-máshoz hasonlító sorozatokat (akár részsorozatokat is), illetve a sorozat alakulását is vizsgálhatjuk. Különféle regressziós módszerekkel próbál-hatjuk prognosztizálni a jövőben valószínűleg előforduló eseményeket.

Eltéréselemzés99:

 Azokat az elemeket, amelyek nem felelnek meg az adatbázis általános jellemzőinek, illetve tulajdonságaik nagymértékben eltérnek az általá-nostól, különc pontoknak nevezzük.

 A legtöbb adatbányászati algoritmus az ilyen különc pontoknak nem tu-lajdonít nagy jelentőséget, legtöbbször zajnak vagy kivételnek kezeli őket. Van azonban egy eljárás, az eltéréselemzés, amely ezeket a különc pontokat keresi.

 Az eltéréselemzés főbb alkalmazási területe a másolás, adatlopás, to-vábbá a csalások, visszaélések, vírusok, hackertámadások kiszűrése.

Webes adatbányászat:

 Az interneten óriási adattömeg található, így az interneten alapuló in-formációkinyerő algoritmusok is az adatbányászat területéhez tartoz-nak, például az intelligensebb keresés, oldalak rangsorolása, illetve a hasonló tartalmú oldalak megtalálása.

98 Adatbányászati technológiák. http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/6-tetel

99 Adatbányászati technológiák. URL: http://pi.elte.hu/jegyzetek/adattarhazak-adatbanyaszati-technologiak/6-tetel

A tudásfeltárás (KDD) folyamata

A tudásfeltárás egy ciklikus, ismétlődő folyamat, amelynek meghatározott sorrendű lépései vannak:

1. Adatgyűjtés:

A felhasználási célok meghatározása, az alkalmazási terület megismerése.

2. Céladatbázis létrehozása, adatkiválasztás:

Ki kell választani a használni kívánt adatbázist, amiből a tudást ki akarjuk nyerni.

3. Adattisztítás:

A téves bejegyzések eltávolítása, hiányos mezők pótlása, zajok szűrése.

A zaj alatt az adatba épült véletlen hibát értjük. Vannak olyan zajok, ame-lyeket egyszerű felfedezni és javítani, mint például string érték ott, ahol számot várunk. Ám vannak olyan esetek, amikor a hiba észrevétlen marad, például számértékek elgépelése.

4. Adatintegráció:

A feldolgozás számára fontos lépés, több adatforrás összekapcsolása, egyesítése.

A harmadik és negyedik lépést együtt gyakran nevezik az adatok előfeldol-gozásának.

A különböző forrásból vett adatok integrációja során sok problémába üt-közhetünk: Különböző módon tárolt adatok, különböző konvenciók követése, különböző mértékegységek, elsődleges kulcsok és elnevezések használata, és különféle hibák lehetnek jelen.

5. Adattércsökkentés:

A cél szempontjából fontos attribútumok kiemelése az adatbázisból.

6. Adatbányászat:

Az adatbányászati algoritmus típusának kiválasztása: El kell dönteni, hogy a megoldandó feladat klaszterezés, vagy szabálykeresés, vagy mintakeresés, eset-leg osztályozás.

A megfelelő adatbányászati algoritmus meghatározása. Előnyeinek, hátrá-nyainak, paramétereinek vizsgálata, a futási időnek és memóriaigényének elemzése.

7. Az algoritmus alkalmazása 8. Értelmezés és kiértékelés:

A kinyert információ értelmezése, esetleg visszatérés az előző lépésekhez további finomítások céljából.

A megszerzett tudás megerősítése: összevetés elvárásokkal, előzetes isme-retekkel.

Eredmények dokumentálása és átadása a felhasználónak.

Egy adatbányászati elemzés akkor tekinthető sikeresnek, ha sikerül egy új, hasznos és valós összefüggést feltárni. Ha az algoritmust vagy annak paraméte-reit nem megfelelően választottuk meg, akkor egy másik eljárással vagy a pa-raméterek megváltoztatásával eredményre juthatunk.

„A sikeres adatbányászati projektekben az első öt lépés teszi ki az idő- és pénzráfordítások legalább 80%-át.” Ezért a tudásfeltárás során elengedhetet-len, hogy az adatbányász és az alkalmazási terület szakértője szorosan együtt-működjön, a projekt minden fázisában ellenőrizzék a betartandó irányvonala-kat.

Az elméleti összefoglaló után lássunk egy gyakorlati példát!100

Ha adatbányászati eszközökkel sikerül kimutatni, hogy X betegséggel gyak-ran együtt jár Y betegség is, akkor a terület szakértője, a kutatóorvos képes eldönteni azt, hogy ez valóban így van-e. A kutatóorvos megvizsgálhatja, hogy ugyanezen összefüggés más adathalmaz esetén is fennáll-e (esetleg direkt eb-ből a célból gyűjt adatot). Ha igen, akkor kiderítheti azt, hogy az egyik betegség során keletkezik-e olyan kémiai anyag, vagy elszaporodott-e olyan kórokozó, mely hozzájárul a másik betegség kialakulásához.

Tehát az adatbányász „ötleteket” tud adni a kutatóorvosoknak. Ezek a

„tippek” segítik a kutatóorvos munkáját, hogy ne rossz irányban induljon el a kutatásaival (pénz és idő). Az adatbányászat tehát elsősorban új, ígéretes hipo-tézisekkel járulhat hozzá a kutatásokhoz.