• Nem Talált Eredményt

A tud´asfelt´ar´as folyamata

In document Magyar nyelv˝ u irodalom (Pldal 17-20)

1. Bevezet´ es 6

1.2. A tud´asfelt´ar´as folyamata

A tud´askinyer´es folyamata sor´an 6-10 f´azist szok´as elk¨ul¨on´ıteni [39, 55] att´ol f¨ugg˝oen, hogy mely l´ep´eseket vonjuk ¨ossze (tekinthetj¨uk p´eld´aul az 1.3 ´abr´at) :

minták

forrás adat

tisztított adat kiválasztás

tisztítás

csökkentés és transzformáció

adatbányászat

adat

tudás értelmezés és

értékelés

transzformált adat

1.3. ´abra. A tud´asfelt´ar´as folyamata

I. Az alkalmaz´asi ter¨ulet felt´ar´asa ´es meg´ert´ese, fontosabb el˝ozetes ismeretek begy˝ujt´ese, ´es a felhaszn´al´asi c´elok meghat´aroz´asa.

II. C´eladatb´azis l´etrehoz´asa : kiv´alasztani a haszn´alni k´ıv´ant adatb´azist, (vagy annak csak egy r´esz´et), amib˝ol a tud´ast ki akarjuk nyerni.

III. Adattiszt´ıt´as: itt olyan alapvet˝o oper´aci´okat ´ert¨unk, mint a t´eves bejegyz´esek elt´avol´ıt´asa, hi´anyos mez˝ok p´otl´asa, zajok sz˝ur´ese stb. Zajon az adatba ´ep¨ult v´eletlen hib´at ´ert¨unk.

Vannak zajok, amelyeket egyszer˝u felfedezni ´es jav´ıtani. P´eld´aul sztring ´ert´ek ott, ahol

sz´amot v´arunk, vagy felsorol´as t´ıpus´u attrib´utumn´al ´erv´enytelen ´ert´ek tal´alhat´o. Sajnos sok esetben a hiba ´eszrev´etlen marad (p´eld´aul 0.53 helyett 0.35 ´ert´ek g´epel´ese).

IV. Adatintegr´aci´o : a feldolgoz´as sz´am´ara fontos, esetleg elosztott adatb´azisok egyes´ıt´ese.

A harmadik ´es negyedik l´ep´est egy¨utt gyakran nevezik az adatok el˝ofeldolgoz´as´anak.

A k¨ul¨onb¨oz˝o forr´asb´ol vett adatok integr´aci´oja sor´an sok probl´em´aba ¨utk¨ozhet¨unk. A k¨ul¨onb¨oz˝o oszt´alyok k¨ul¨onb¨oz˝o m´odon t´arolj´ak adataikat, k¨ul¨onb¨oz˝o konvenci´okat k¨ovet-nek, k¨ul¨onb¨oz˝o m´ert´ekegys´egeket, els˝odleges kulcsokat ´es elnevez´est haszn´alhatnak ´es k¨ul¨onf´ele hib´ak lehetnek jelen. Az eg´esz c´eget ´atfog´o adatintegr´aci´ot adatt´arh´azban t´arolj´ak, mely egy speci´alis, az elemz´est t´amogat´o adatb´azis.3

V. Adatt´er cs¨okkent´es: az adatb´azisb´ol a c´el szempontj´ab´ol fontos attrib´utumok kiemel´ese.

VI. Adatb´any´aszati algoritmus t´ıpus´anak kiv´alaszt´asa : eld¨onteni, hogy a megoldand´o feladat klaszterez´es, vagy szab´aly-, illetve mintakeres´es, esetleg oszt´alyoz´as.

VII. A megfelel˝o adatb´any´aszati algoritmus meghat´aroz´asa. El˝onyeinek, h´atr´anyainak, pa-ram´etereinek vizsg´alata, fut´asi id˝o- ´es mem´oriaig´eny elemz´ese.

VIII. Az algoritmus alkalmaz´asa.

IX. A kinyert inform´aci´o ´ertelmez´ese, esetleg visszat´er´es az el˝oz˝o l´ep´esekhez tov´abbi fi-nom´ıt´asok c´elj´ab´ol.

X. A megszerzett tud´as meger˝os´ıt´ese: ¨osszevet´es elv´ar´asokkal, el˝ozetes ismeretekkel.

Eredm´enyek dokument´al´asa ´es ´atad´asa a felhaszn´al´onak. Egy adatb´any´aszati elemz´es eredm´enye akkor

”nem felel meg az elv´ar´asainknak”, ha nem siker¨ul semmilyen ´uj, hasz-nos ´es term´eszetesen val´os ¨osszef¨ugg´est felt´arni. Ennek nyilv´an t¨obb oka is lehet, a k¨ovet-kez˝okben k´et p´eld´at mutatunk [25].

1. El˝ofordulhat, hogy rosszul v´alasztottuk meg az elemz´eshez (adatb´any´aszathoz) haszn´alt algoritmust vagy ennek param´etereit, ´es egy m´asik elj´ar´assal (vagy m´as pa-ram´eterekkel) tal´alni fogunk valamilyen ´erdekes ¨osszef¨ugg´est. Szeml´eletesen sz´olva : m´as oldalr´ol r´an´ezve az adathegyre, lehet, hogy l´atunk rajta valami ´erdekeset.

2. Term´eszetesen az is lehets´eges, hogy az adatok egy´altal´an nem rejtenek semmif´ele

´

uj, a gyakorlatban hasznos´ıthat´o ¨osszef¨ugg´est. Ekkor — sajnos — teljesen el¨olr˝ol kell kezdeni a folyamatot, ´uj adatok gy˝ujt´es´evel.

3A h´etk¨oznapi” m˝uk¨od´est t´amogat´o operat´ıv adatb´azis, ´es az adatt´arh´azak k¨oz¨otti k¨ul¨onbs´egre egy szeml´eletes p´elda az al´abbi [25]: Ha tudni szeretn´enk Kis J´anos aktu´alis sz´amlaegyenleg´et, akkor ezt egy ope-rat´ıv adatb´azis alapj´an pontosan ´es gyorsan meg tudjuk hat´arozni. Egy

´atfog´obb” k´erd´es — p´eld´aul:

Ho-gyan alakultak az ¨ugyfelek bankban elhelyezett megtakar´ıt´asai az elm´ult 12 h´onapban?” — megv´alaszol´asa egy operat´ıv adatb´azis eset´en bonyolult lehet, ´es sok ideig tarthat. Egy adatt´arh´az az ut´obbi k´erd´esre gyors v´alaszt tud adni, t´amogatva ez´altal a d¨ont´eshoz´okat. A v´alasz azonban nem teljesen pontos: ha d´elut´an 4-kor k´erdezz¨uk le az ut´obbi 12 h´onapbeli megtakar´ıt´asokat, abban m´eg nem biztos, hogy benne lesz Kis J´anos aznap d´elel˝ott lek¨ot¨ott bet´etje. Az adatt´arh´az adatai teh´at nem felt´etlen¨ul abszol´ut frissek, nyilv´an sz¨uks´eges azonban a periodikus friss´ıt´es¨uk. Adatt´arh´azak alkalmaz´asakor a trendek, folyamatok elemz´ese a c´el. Az, hogy nem az aktu´alisan legfrissebb adatokkal dolgozunk, ´altal´aban nem okoz gondot, felt´eve, hogy a legut´obbi friss´ıt´es ´ota nem k¨ovetkezett be radik´alis v´altoz´as. Ugyanakkor Kis J´anos nyilv´an nem ¨or¨ulne, ha a bet´et elhelyez´ese ut´an este lek´erdezve sz´aml´aj´at

nem l´atn´a” a p´enz´et, mert a periodikus friss´ıt´es csak hetente egyszer esed´ekes: az ˝o ig´enyeinek nyilv´an az operat´ıv adatb´azis felel meg.

A sikeres adatb´any´aszati projektekben az els˝o 5 l´ep´es teszi ki az id˝o- ´es p´enzr´aford´ıt´asok legal´abb 80%-´at. Ha a c´elok nem kell˝ok´eppen ´atgondoltak ´es a b´any´aszand´o adatok nem el´eg min˝os´egiek, akkor k¨onnyen el˝ofordulhat, hogy az adatb´any´asz csak vakt´aban dolgozik ´es a kinyert inform´aci´onak tulajdonk´eppen semmi haszna sincs. A tud´asfelt´ar´as sor´an elengedhe-tetlen, hogy az adatb´any´asz ´es az alkalmaz´asi ter¨ulet szak´ert˝oje szorosan egy¨uttm˝uk¨odj¨on, a projekt minden f´azis´aban ellen˝orizz´ek a betartand´o ir´anyvonalakat. N´ezz¨unk erre egy p´eld´at : ha adatb´any´aszati eszk¨oz¨okkel siker¨ul kimutatni, hogy X betegs´eggel gyakran egy¨utt j´ar Y be-tegs´eg is, a kutat´oorvos k´epes eld¨onteni azt, hogy ez val´oban ´ıgy van-e: megvizsg´alhatja, hogy ugyanezen ¨osszef¨ugg´es m´as adathalmaz eset´en is fenn´all-e (esetleg direkt ebb˝ol a c´elb´ol gy˝ujt adatot). Ha igen, akkor kider´ıtheti azt, hogy az egyik betegs´eg sor´an keletkezik-e olyan k´emiai anyag, vagy elszaporodott-e olyan k´orokoz´o, mely hozz´aj´arul a m´asik betegs´eg kialakul´as´ahoz.

Ezek alapj´an azt mondhatjuk, hogy az adatb´any´asz

”tippeket” ad a kutat´oorvosoknak. Ezen

”tippek” jelent˝os´eg´et nem szabad al´abecs¨uln¨unk: ezek ´ovhatj´ak meg a kutat´oorvost att´ol, hogy

— szeml´eletesen fogalmazva —

”rossz helyen tapogat´ozzon”. Az adatb´any´aszat teh´at els˝o sor-ban ´uj, ´ıg´eretes hipot´ezisekkel j´arulhat hozz´a a k¨ozeg´eszs´eg¨ugyi kutat´asokhoz.

A k¨ovetkez˝o val´os p´elda is az adatb´any´asz ´es a kutat´oorvos szerep´et szeml´elteti. Egy adatb´any´asz az ´eletm´odra ´es a megbeteged´esekre vonatkoz´o adatokat elemezve juthat arra a k¨ovetkeztet´esre, hogy a prosztatar´ak ¨osszef¨ugg a szenesed´esig s¨ut¨ott h´us fogyaszt´as´aval. Ez-zel ”ir´anyt mutat” a kutat´oorvosnak, aki a h´att´erben rejl˝o k´emiai reakci´okat ´es azok biol´ogiai k¨ovetkezm´enyeit t´arja fel. Ez a konkr´et esetben l´enyeg´eben ´ıgy is t¨ort´ent : el˝obb t´art´ak fel a j´ol

´ats¨ut¨ott h´us fogyaszt´asa ´es a prosztatar´ak gyakoris´aga k¨oz¨otti ¨osszef¨ugg´est, majd megtal´alt´ak a h´us s¨ut´eskor keletkez˝o PhIP vegy¨uletet ´es kimutatt´ak, hogy hat´as´ara prosztatar´ak alakulhat ki [62].

Ez a jegyzet a 6. ´es 7. l´ep´eseket veszi szem¨ugyre: rendelkez´es¨unkre ´all egy adatb´azis, tud-juk, milyen jelleg˝u inform´aci´ora van sz¨uks´eg¨unk, ´es az adatb´any´asz feladata, hogy ennek meg-old´as´ara min´el gyorsabb ´es pontosabb algoritmust adjon.

Altal´anosabban k´etf´ele adatb´any´aszati tev´ekenys´eget k¨´ ul¨on´ıt¨unk el:

Felt´ar´as : A felt´ar´as sor´an az adatb´azisban tal´alhat´o mint´akat keress¨uk meg. A mint´ak legt¨obb-sz¨or az ´altal´anos trendeket/szok´asokat/jellemz˝oket ´ırj´ak le, de vannak olyan alkalmaz´asok is (p´eld´aul csal´asfelder´ıt´es), ahol ´eppen az ´altal´anost´ol elt´er˝o/nem v´art mint´akat keress¨uk.

El˝orejelz´es : Az el˝orejelz´esn´el a felt´art mint´ak alapj´an pr´ob´alunk k¨ovetkeztetni a j¨ov˝ore.

P´eld´aul egy elem ismeretlen ´ert´ekeit pr´ob´aljuk el˝orejelezni az ismert ´ert´ekek ´es a felt´art tud´as alapj´an.

N´egy fontos elv´ar´asunk van a megszerzett tud´assal kapcsolatban: (1) legyen k¨onnyen

´erthet˝o, (2) ´erv´enyes, (3) hasznos ´es (4) ´ujszer˝u. Az ´erv´enyess´eg eld¨ont´ese a ter¨ulet szak´ert˝oje mellett az adatb´any´asz (esetleg statisztikus) feladata is. El˝ofordulhat, hogy helyes modellt adtunk, az algoritmus is j´ol m˝uk¨od¨ott, m´egis a kinyert szab´aly nem fedi a val´os´agot. Bonfer-roni t´etele arra figyelmeztet benn¨unket, hogy amennyiben a lehets´eges k¨ovetkeztet´esek sz´ama t´ul nagy, akkor egyes k¨ovetkeztet´esek t´enyleges val´os´agtartalom n´elk¨ul igaznak mutatkoznak, tiszt´an statisztikai megfontol´asok alapj´an. Az egyik legjobb p´elda a val´os´agtartalom n´elk¨uli szab´aly kinyer´es´ere az al´abbi megt¨ort´ent eset. Amerik´aban a Dow Jones ´atlag becsl´es´ehez ke-resni kezdt´ek azt a term´eket, amely ´ar´anak alakul´asa legink´abb hasonl´ıtott a Dow Jones ´atlag alakul´as´ahoz. A kapott term´ek a bangladesi gyapot volt.

Az adatok illetve a kinyert inform´aci´ok megjelen´ıt´es´enek m´odja legal´abb annyira fontos, mint az ¨osszef¨ugg´esek meghat´aroz´asa. A v´egfelhaszn´al´okat (akik ´altal´aban vezet˝ok) jobban megragadja egy j´ol elk´esz´ıtett ´abra, mint k¨ul¨onb¨oz˝o matematikai strukt´ur´ak nyers t´alal´asa. A megjelen´ıt´es teh´at fontos r´esze az adatb´any´aszatnak. Ezt j´ol igazolja, hogy nagy sikert k¨ony-velnek el az olyan adatb´any´aszati szoftverek, amelyek adatb´any´aszati algoritmusokat nem is futtatnak, puszt´an az adatokat jelen´ıtik meg intelligens m´odon (h´aromdimenzi´os, sz´ınes, for-gathat´o ´abr´ak). Ezekn´el a rendszerekn´el az ¨osszef¨ugg´eseket, mint´azatokat, k¨oz¨os tulajdons´aggal rendelkez˝o csoportokat maguk a felhaszn´al´ok veszik ´eszre. Az adatb´any´aszati szoftverekr˝ol r´eszletesebben a 13. fejezetben olvashatunk.

In document Magyar nyelv˝ u irodalom (Pldal 17-20)