• Nem Talált Eredményt

Az adatbányászat feltételei

In document Bodon Ferenc (Pldal 16-0)

1. Bevezetés 5

1.5. Az adatbányászat feltételei

Tagadhatatlan, hogy a sikertelen adatbányászati projektek száma nagy, és az adatbányászat na-gyon sok esetben nem váltotta be a hozzá f˝uzött reményeket. Ennek oka egyrészr ˝ol az adatbányászati szakemberhiány (a jó adatbányászati szakember ritka, mint a fehér holló), másrészr ˝ol az, hogy alap-vet˝o feltételek nem teljesültek a projektek során. A sikeres adatbányászati projekt egyik legfontosabb feltétele az adatbányász és a terület szakért ˝ojének szoros együttm˝uködése. A további feltételek az alábbiak :

Nagy mennyiség ˝u adat : A nagy mennyiség˝u adat a kinyert szabályok statisztikai jelent ˝oségét növe-li. Minél nagyobb az adatmennyiség, annál biztosabban tudjuk kizárni bizonyos összefüggések esetiségét, azaz annál kisebb az esélye, hogy a talált összefüggés csak a véletlen eredménye.

Sajnos sok adatot sokáig tart feldolgozni, s ˝ot az algoritmusok egy jelent ˝os része érzékeny arra, hogy az adatbázis elfér-e a memóriában.

Sok attribútum : Ha az objektumokat leíró attribútumok száma kicsi, akkor hagyományos eszközök-kel (grafikonok, egyszer˝u táblázatok, kis dimenziós, forgatható, színes ábrák, . . . ) is fel tudjuk tárni a tudást. Kevés attribútum esetén a kinyerhet ˝o tudás sem lehet túl sokféle. Az adatbányá-szat ereje akkor mutatkozik meg, amikor az attribútumszám olyan nagy, hogy a hagyományos módszereknek nincs esélyük.

Tiszta adat : Az adatok jó min ˝osége az adatbányászat egyik alapfeltétele. A zajok, a hibás bejegyzé-sek jó esetben csak nehezítik az adatbányászatot (például amikor ismerjük az adatokban találha-tó zaj, ill. bizonytalanság fokát), rosszabb esetben azonban hamis eredményekhez vezetnek. Az ilyen rossz min ˝oség˝u adatokra remek példa hazánk orvosi adatbázisa (rengeteg hibás bejegy-zés, kitöltetlen mez ˝o, eltér˝o mértékegység alapú bejegyzések, szöveges bejegyzések), pedig az ezekb˝ol kinyert információk értékesek lennének. A "szeméthalmazban" való kutakodást tréfá-san GIGO-nak (garbage in, garbage out2) nevezik.

Torzítatlan adat : Az adatbányászat sikeressége múlhat az adatok nem megfelel ˝o kiválasztásán. Ide tartozó fogalom az ún. BIBO (bias in, bias out3), amely arra hívja fel a figyelmünket, hogy ha egy részsokaság alapján akarunk következtetni az alapsokaságra, akkor figyelembe kell ven-nünk a részsokaság kiválasztásának szempontjait, illetve az abból adódó (esetleges) torzításo-kat. Például, ha a lakosságot az anyagi helyzet szerint akarjuk csoportokba sorolni, de csak

2szemét be, szemét ki

3torzítás be, torzítás ki

nyugat-magyarországi adatok állnak rendelkezésünkre, akkor tudnunk kell, hogy a kapott ered-mény (a csoportok leírása) torz lesz, hiszen a részsokaság átlag életszínvonala jobb az alapso-kaságénál.

Alkalmazási terület akcióképessége : Gyakran el ˝ofordul, hogy a tudást csak kinyerik, de a felhasz-nálása elmarad. Gyakran a felhasználási területek túl merevek, vagy a változtatás túlságosan magas költségekkel járna. A legtöbb adatbányászati esettanulmányban a tudás kinyerésének módjáról esik szó, a tudás felhasználásáról pedig ritkán hallunk.

A befektetés megtérülésének (Return On Investment) mérhet ˝osége : Egy adatbányászati pro-jektr˝ol akkor állíthatjuk biztosan, hogy sikeres, ha a befektetés hatását mérni, vagy viszonylag pontosan becsülni tudjuk.

A jegyzet fejezeteiben a legkevésbé ismert, de napjainkban egyre nagyobb teret nyer ˝o területeket járjuk körül : a gyakori minták kinyerését, az attribútumok közötti összefüggések meghatározását, a sorozatelemzést, a klaszterezést és a webes adatbányászatot. Minden esetben az algoritmusok gyakor-lati felhasználását példákon keresztül szemléltetjük ; emellett megadjuk a problémák formális definí-cióit, és bemutatjuk a legismertebb, leghatékonyabb algoritmusokat is. A jegyzet további célja, hogy összefoglalja az eddig nem, vagy csak kis hatékonysággal megoldott problémákat, továbbá a jelenlegi kutatási területeket.

Alapfogalmak, jelölések

Ebben a részben tisztázzuk a jegyzet során használt fogalmak jelentését. Célszer˝u akkor átnéznünk e fejezet egyes részeit, amikor az olvasás során olyan részbe ütközünk, ami nem teljesen tiszta.

2.1. Halmazok, relációk, függvények, sorozatok

A halmaz különböz ˝o objektumok együttese, amelyeket a halmaz elemeinek hívunk. Ha x eleme a H halmaznak, akkor azt így jelöljük : xH, a halmaz elemeinek számát (rövidebben elemszámát) pedig|H|-val. A jegyzetben a természetes számok halmazát ({0,1,. . . })N-el jelöljük, a valós számok halmazátR-el, az egész számok halmazát Z-vel, az üres halmazt (egyetlen elemet sem tartalmazó hal-maz) /0-val. Két halmaz akkor egyezik meg, ha ugyanazok az elemeik. X részhalmaza Y -nak (X⊆Y ), ha X minden eleme Y -nak is eleme. Ha XY , de X6=Y , akkor X valódi részhalmaza Y -nak. A valódi jelz˝ot gyakran fogjuk használni, és a valódi részhalmaz analógiájára azt értjük rajta, hogy az egyenl ˝o-séget kizárjuk. Sajnos a superset angol szónak nincsen általánosan elfogadott fordítása, pedig sokszor szeretnénk használni. Azt fogjuk mondani, hogy Y b˝ovebb X -nél, ha (XY ). A halmazm˝uveletek jelölése és pontos jelentésük : metszet : XY={z : zX és zY}, unió : XY={z : zX vagy zY}, különbség : X\Y ={z : zX és z6∈Y}.

Két halmaz (X , Y ) Descartes-szorzata (X×Y ) az összes olyan rendezett párból álló halmaz, amely-nek az els˝o komponense (tagja) X -ben, a második Y -ban van. Az X , Y halmazokon értelmezett bináris reláció az X×Y részhalmaza. Ha(x,y)eleme aφrelációnak, akkor azt így is jelölhetjük : xφy. A¹ reláció részben rendezés (vagy parciális rendezés), ha reflexív (x¹x), antiszimmetrikus (x¹y és y¹x feltételekb ˝ol következik, hogy x=y), tranzitív (x¹y és y¹z feltételekb ˝ol következik, hogy x¹z). Ha az el˝oz˝o 3 feltételben az antiszimmetrikus helyett szimmetrikusat (x¹y-b ˝ol következik, hogy y¹x) mondunk, akkor ekvivalencia-relációról beszélünk. A továbbiakban, tetsz ˝oleges¹rendezés esetén, ha x6=y és x¹y, akkor azt így jelöljük xy. Legyen X részhalmaza X0. A X0halmaznak yX egy alsó korlátja, ha y¹x minden xX0-re. Az y legnagyobb alsó korlát, ha minden y0alsó korlátra y0¹y.

Az y maximális alsó korlátja X0-nak, ha nem létezik olyan y-tól különböz ˝o y0alsó korlát, amire y¹y0. Hasonlóan értelmezhet ˝o a fels˝o, legkisebb fels ˝o, minimális fels ˝o korlát fogalmak is. A ≺ rendezés teljes rendezés, ha minden x6=y elemre xy, yx közül az egyik fennáll. Az(X,¹)párost háló-nak nevezzük, ha¹az X -en értelmezett parciális rendezés, és tetsz ˝oleges x,yX elemeknek létezik legnagyobb alsó (jelölésben : xy) és legkisebb fels ˝o korlátjuk (xy).

Központi fogalom lesz a lexikografikus rendezés. Nézzük el ˝oször ennek a matematikai definíci-óját. Legyen X és Y két halmaz, amelyeken értelmezve van egy-egy parciális rendezés (X,≺Y).

17

Azt mondjuk, hogy a(x1,y1)∈X×Y lexikografikusan megel ˝ozi(x2,y2)∈X×Y párt, ha x1Xx2, vagy x1=x2és y1Yy2. A lexikografikus rendezést tetsz ˝oleges számú halmaz Descartes-szorzatára is kiterjeszthetjük rekurzív módon az alábbiak alapján : X×Y×Z=X×(Y×Z). Látható, hogy a lexiko-grafikus rendezést Descartes szorzatokon értelmezzük, vagy más szóval olyan összetett struktúrákon, amelyeknek ugyanannyi tagjuk van (n-eseknek is hívják ezeket). Mi ezt szeretnénk általánosítani, hiszen például szavak sorba rendezésénél is el ˝ofordulnak eltér ˝o hosszúságú szavak. Ha a rövidebb szó megegyezik a hosszabb szó els ˝o felével (például komp és kompenzál szavak), akkor megegye-zés alapján a rövidebb szó el ˝ozi meg lexikografikusan a hosszabbikat. Ezek alapján mindenki tudja definiálni a lexikografikus rendezést eltér ˝o számú halmazok Descartes szorzatára. A legtöbb esetben a Descartes szorzat tagjainak halmaza és a rajtuk definiált rendezések megegyeznek (pl. : X =Y és

X =≺Y). Ilyenre, adott rendezés szerinti lexikografikus rendezésként hivatkozunk.

Az X , Y halmazokon értelmezett f bináris reláció függvény, ha bármely xX esetén pontosan egy olyan yY létezik, hogy(x,y)f . Ez jelölésben f : XY , és, ha(x,y)f , akkor y= f(x).

Az X halmazt a f értelmezési tartományának hívjuk (vagy máshogy : f az X -en értelmezett), Y -t az f képhalmazának, az f(X)halmazt pedig az f értékkészletének. Azt a függvényt, amely úgy kapunk, hogy el˝oször a f , majd az g függvényt alkalmazzuk gf -el jelöljük. Predikátum egy függvény, ha az értékkészlete az{igaz,hamis}halmaz. Szürjektív egy függvény, ha a képhalmaza megegyezik az értékkészletével, injektív (vagy más néven egy-egy értelm˝u leképzés), ha az értelmezési tartomány bármely két különböz ˝o eleméhez különböz ˝o értéket rendel és bijektív (másképpen a függvény egy bijekció), ha szürjektív és injektív is egyben.

Legyen H tetsz ˝oleges halmaz. Az f :

z }|n {

H×· · ·×HH függvényt n változós m˝uveletnek nevezzük.

A H halmazon értelmezett kétváltozós?m˝uveletet asszociatívnak nevezzük, ha tetsz ˝oleges a,b,cH esetén(a?b)?c=a?(b?c). A(H, ?)párt félcsoportnak nevezzük, ha?a H-n értelmezett asszociatív m˝uvelet. A(H, ?)félcsoport elemein a H elemeit értjük. Ha a(H, ?)félcsoport elemei között létezik olyan e elem, amelyre e?a= a?e =a minden aH elemre, akkor e-t egységelemnek hívjuk és egységelemes félcsoportól beszélünk.

Sokat fogjuk használni a sorozat fogalmát. Legyen S egy halmaz. Az f :N→S függvényt az S felett értelmezett sorozatnak hívjuk. Leírására az f(0), f(1), . . .helyett a hs0,s1, . . .ijelölést fogjuk használni. Véges sorozatok esetében az f értelmezési tartománya (általában az {1,2,. . . ,n}) véges halmaz. Véges sorozat hossza az értelmezési tartományának elemszáma. Az S=hs1,s2, . . .sni,S0=

=hs01,s02, . . .s0n0isorozat konkatenációján azhs1,s2, . . .sn,s01,s02, . . .s0n0isorozatot értjük, éshS,S0i-el jelöljük.

2.2. Lineáris algebra

Feltételezzük, hogy az olvasó tisztában van a mátrix, vektor, illetve a mátrix (vektor) transzpo-náltjának fogalmával. A hagyományoknak megfelel ˝oen az A mátrix i-edik sorából képzett vektort Ai-vel jelöljük, ||v||-vel a v vektor euklideszi normáját (

q∑iv2i) és vTw-vel a vT, w vektrok skaláris szorzatát (∑ivTi wi).

2.3. Gráfelmélet

Irányított gráf egy G=(V,E)pár, ahol V csúcsok (vagy pontok) véges halmaza, E pedig egy biná-ris reláció V -n. E elemeit éleknek nevezzük. Ha(u,v)E, akkor az u,v csúcsok egymás szomszédai.

Irányítatlan gráfról beszélünk, ha az E reláció szimmetrikus. A címkézett (vagy súlyozott) gráfnál a csúcsokhoz, címkézett él˝u (vagy élsúlyozott) gráfnál pedig az élekhez rendelünk címkéket. A címké-zett él˝u gráfot súlyozott gráfnak hívjuk, ha a címkék számokkal kifejezhet ˝o súlyokat jelentenek. A gráf méretén (|G|) a csúcsok számát értjük. A G0= (V0,E0)gráf a G= (V,E)részgráfja, ha V0V és E0E. A G= (V,E)gráf V0V által feszített részgráfja (induced subgraph) az a G0= (V0,E0)gráf, ahol E0={(u,v)E : u,vV0}. A G1(V1,E1)izomorf a G2(V2,E2)gráffal, jelölésben G1∼=G2, ha létezikφ:V1V2bijekció, amelyre(u,v)E1esetén(φ(u),φ(v))∈E2is fennáll. Címkézett gráfoknál emellett megköveteljük, hogy az u csúcs címkéje megegyezzék aφ(u)címkéjével minden uV1-re, címkézett él˝u gráfnál pedig az(u,v)címkéje egyezzen meg a (φ(u),φ(v))él címkéjével. Ha G∼=G, akkor automorfizmusról beszélünk.

A gráfok ábrázolásának elterjedt módja a szomszédossági mátrix (adjacency matrix) és a szom-szédosság lista. Az|G| × |G|méret˝u A szomszédossági mátrix ai j eleme 1 (élcímkézett esetben az él címkéje), ha a G gráf i-edik csúcsából indul él a j-edik csúcsba, különben 0. Hurokél nélküli, cím-kézett gráfban a szomszédossági mátrix aii eleme az i csúcs címkéjét tárolja. A szomszédossági lista tulajdonképpen|G|darab lista, ahol az i-edik lista tárolja az i-edik csúcs szomszédait.

Az u csúcsot az u0csúccsal összeköt ˝o k-hosszú úton csúcsoknak egy olyan (véges)hv0,v1, . . . ,vki sorozatát értjük, amelyre u=v0, u0=vk, és(vi1,vi)∈E (i=1,2, . . . ,k). Egy út egyszer˝u, ha a benne szerepl˝o csúcsok páronként különböz ˝ok. Ahv0,v1, . . . ,vkiút kör, ha v0=vk, és az út legalább egy élt tartalmaz. Egy gráfot összefügg˝onek hívunk, ha bármely két csúcsa összeköthet ˝o úttal. A körmenetes, irányítás nélküli gráfot erd˝onek hívjuk. Ha az erd ˝o összefügg ˝o, akkor pedig fának. Az olyan fát, amely tartalmazza egy G gráf minden csúcsát, a G feszít˝ofájának hívjuk.

A gyökeres fában az egyik csúcsnak kitüntetett szerepe van. Ezt a csúcsot gyökérnek nevezzük.

A gyökérb ˝ol egy tetsz˝oleges x csúcsba vezet ˝o (egyértelm˝uen meghatározott) út által tartalmazott bár-mely y csúcsot az x ˝osének nevezünk. Azt is mondjuk ekkor, hogy x az y leszármazottja. Ha x6=y, akkor valódi ˝osr˝ol és valódi leszármazottról beszélünk. Ha az úton x 1 élen keresztül érhet ˝o el y-ból, akkor x az y gyereke és y az x szül˝oje. Ha két csúcsnak ugyanaz a szül ˝oje, akkor testvéreknek mondjuk

˝oket.

A G=(V,E)gráf S,V\S vágásán a V halmaz kétrészes partícióját értjük. Az(u,v)E él keresztezi az S,V\S vágást, ha annak egyik végpontja S-ben a másik V\S-ben van. Egy vágás súlya – súlyozott gráfok esetében – megegyezik a vágást keresztez ˝o élek összsúlyával.

2.4. Valószín ˝uségszámítás

Feltételezzük, hogy az olvasó tisztában van a valószín˝uségi változó, valószín˝uségi változó el-oszlásának, s˝ur˝uségfüggvényének, eloszlásfüggvényének a valószín˝uségi változó várható értékének (E[X] =µ=∑x·p(x)) és szórásának (D2[X] =σ2=E[(Xµ)2]) vagy általánosan az n-edik centrális momentumok fogalmával (Dn[X] =E[(Xµ)n]).

Kevésbé ismert a ferdeség, ami egy eloszlás asszimetriáját próbálja megadni. Ha a ferdeség nulla, akkor az eloszlás szimmetrikus (például normális eloszlásoknál), ellenkez ˝o esetben a várható értékt ˝ol balra (negatív ferdeség esetében) vagy jobbra „nyúlik el”. A ferdeségnek több mutatóját definiálták ; ezek közül a legelterjedtebb aγ1= (DD2[X])3[X]3/2), de szokás még aβ1=√γ1-et is haszálni.

Szintén nem az alapfogalmak közé tartozik a lapultság fogalma, ami egy eloszlás csúcsosságát adja meg. A lapultságnak is több elfogadott definíciója létezik. Legelterjedtebb aβ2=(DD24[X[X])]2 (kurtosis proper), és aγ22−3 (kurtosis excess) értékek. A normális eloszlásβ2lapultsági értéke három, a normálisnál laposabbaké háromnál kisebb. A ferdeséget és a lapultságot annak eldöntésénél szokták használni, hogy egy adott minta származhat-e normális eloszlásból.

2.4.1. Entrópia

Legyen X egy diszkrét valószín˝uségi változó, amely értékeit egyXhalmazból veheti fel. Az lX =

=−log2p(X)valószín˝uségi változót az X entrópias˝ur˝uségének nevezzük. X entrópiáját – H(X)-et – ezen változó várható értékével definiáljuk :

H(X) =−

xX

p(x)log2p(x).

Az entrópia valamiképpen a változó bizonytalanságát fejezi ki. HaXelemszáma rögzített és az X változó csak egy értéket vehet fel (mert az egyik érték valószín˝usége 1), akkor H(X)értéke 0 (nincs bizonytalanság), ha pedig X eloszlása egyenletes eloszlást követ, akkor az entrópia a maximumát veszi fel, log2(|X|)-t.

Legyen X és Y két diszkrét érték˝u valószín˝uségi változó. Az X -nek az Y feltétellel vett feltételes entrópiája :

H(X|Y) =−

yY

xX

p(x,y)log2p(x|y), vagy egy kicsit átalakítva kapjuk, hogy

H(X|Y) =−

yY

p(y)

xX

p(x|y)log2p(x|y).

Be lehet bizonyítani, hogyH(X|Y) =H(XY)−H(Y), ami informálisan úgy lehet megfogalmazni, hogy a feltételes entrópia megadja, hogy mennyi bizonytalanság marad X -ben, ha elvesszük az Y bizonytalanságát.

A feltételes entrópia számos tulajdonsága közül mi csak az alábbit fogjuk felhasználni : 0≤H(X|Y)≤H(X).

2.5. Statisztika

A statisztikában általában X1,X2, . . . ,Xnfüggetlen, azonos eloszlású valószín˝uségi változók van-nak megadva, amiket mintákvan-nak nevezünk. Az eloszlást nem ismerjük pontosan, de rendelkezésünkre állnak megfigyelések.

Legyenek X1,X2, . . . ,Xn független, azonos eloszlású valószín˝uségi változók. Ekkor a ¯X =

=X1+X2+n···+Xn valószín˝uségi változót empirikus középnek, vagy mintaátlagnak, a sn2=n11ni=1(Xi

X¯)2valószín˝uségi változót pedig korrigál empirikus szorásnégyzetnek nevezzük.

2.1. definíció. Legyenek ξ12, . . . ,ξn egymástól független, standard normális eloszlású valószín˝u-ségi változók. Ekkor azni=1ξ2i valószín˝uségi változó eloszlását n paraméter˝u χ2 eloszlásnak (χ2n) nevezzük.

A fentiekb ˝ol következik, hogy az (nσ1)s2 2 valószín˝uségi változó eloszlásaχ2n, amenyiben a s2σ szó-rású, normális eloszlású valószín˝uségi változók korrigál empirikus szorásnégyzetét jelöli

2.2. definíció. Legyenek X és Y két olyan valószín˝uségi változó, amelyek eloszlása rendreχ2nésχ2m. Ekkor a Z= YX/m/n valószín˝uségi változó eloszlását Fn,meloszlásnak hívjuk.

2.5.1. Hipotézisvizsgálat

A hipotézisvizsgálat feladata mindig valamilyen állítás helyességének vizsgálata. Ezt az állítást nullhipotézisnek nevezzük, jele H0. A nullhipotézis általában egy valószín˝uségi változó valamely pa-raméterére vagy a változó viselkedésére vonatkozó állítás. Az állítás igazolásához vagy elvetéséhez kísérletezgetések, minták állnak rendelkezésünkre. Ha a minták alapján a nullhipotézist elvetjük, ho-lott az igaz, akkor els˝ofajú hibát követünk el. Ellenkez ˝o esetben – amikor a nullhipotézis hamis, de mi elfogadjuk – másodfajú hibáról beszélünk. Pusztán minták segítségével nem tudunk teljesen biztos választ adni. A gyakorlatban egy paraméterrel (α) rögzítik az els ˝ofajú hiba elkövetésének megenge-dett valószín˝uségét. Az 1−αértéket a próba szintjének hívjuk.

Összefoglalva tehát, adott egy állítás, egy paraméter (α) és minták sorozata. Feladatunk, hogy a minták alapján cáfoljuk vagy igazoljuk az állítást úgy, hogy bizonyíthatóanα-nál kisebb legyen annak valószín˝usége, hogy az állítás igaz, holott mi cáfoljuk. A hipotézisvizsgálatnál a minták eredményeit felhasználva kiszámítunk egy ún. próbastatisztika értéket, és ezt vetjük össze egy ismert eloszlással.

Azα-nak célszer˝u kis (0.1 és 0.01 közötti) értéket választani1.

2.5.2. Az F-próba

Az F-próba arra szolgál, hogy két független, normális eloszlású valószín˝uségi változó (X,Y ) szo-rásának egyenl ˝oségét eldöntsük.

H0XY. Tudjuk, hogy (nX1)s

2

σ2X X

és (nY1)s

2

σY2 Y χ2eloszlásúak(nX−1)illetve(nY−1)paramáterrel. Ha a nullhi-potézis fennáll, akkor az

F= sX2 sY2

próbastatisztika F-eloszlású(nX−1,nY−1)paraméterrel. Azonban F1 is F-elosszású(nY−1,nX−1) paraméterrel, ezért a gyakorlatban F=max{F,1/F} ≥1 statisztikát szokás használni.

2.5.3. A χ

2

próba

2próbák az alábbi tételt használják fel.

2.3. tétel. Legyen A1,A2, . . . ,Aregy teljes eseményrendszer (r3), legyen pi=P(Ai)>0,i=1, . . . ,r.

Ismételjük a kísérletet n-szer egymástól függetlenül. Jelölje Xi az Ai esemény bekövetkezésének szá-mát. Belátható, hogy ekkor a

r j=1

(Xjnpj)2 npj

1Gondolkozzunk el azon, hogy mi történne, haα-nak nagyon kis értéket választanánk !

valószín˝uségi változó eloszlása n→∞eseténχ2r1eloszláshoz konvergál.

2eloszlás kvantiliseit függvény-táblázatokban megtalálhatjuk.

2próba legfontosabb alkalmazási területei az (1.) illeszkedés-, (2.) függetlenség- és (3.)homo-genitásvizsgálat. Témánkhoz a függetlenség-vizsgálat tartozik hozzá, így a továbbiakban ezt részle-tezzük. Aχ2próba iránt érdekl ˝od˝oknek a [50] magyar nyelv˝u irodalmat ajánljuk.

2.5.4. Függetlenségvizsgálat

Legyen A1,A2, . . . ,Arés B1,B2, . . . ,Bskét teljes eseményrendszer. Végezzünk n kísérletet. Null-hipotézisünk az, hogy az eseményrendszerek függetlenek.

H0:P(Ai,Bj) =P(Ai)P(Bj), i=1, . . . ,r j=1, . . . ,s

Ha az események valószín˝uségei adottak, akkor tiszta illeszkedés vizsgálati feladatról beszélünk, ahol H0:P(AiBj) =piqj

hiszen pi,qj értékek adottak. Jelölje ki j az AiBj esemény bekövetkezésének számát. Ekkor ki kell számítanunk a

χ2=

r i=1

s j=1

(ki jnpiqj)2 npiqj

ún. próbastatisztika értéket. Jobban megvizsgálva χ2-et láthatjuk, hogy az egy

∑(megfigyelt érték - várt érték)2

várt érték jelleg˝u kifejezés. Amennyiben χ2 kicsi, akkor a megfigyelt értékek közel vannak azokhoz, amit H0fennállása esetén vártunk, tehát a nullhipotézist elfogadjuk.

Hogy pontosan mit jelent az, hogy „kicsi”, azt a 2.3-as tétel alapjánχ2rs1és azαparaméter hatá-rozza meg. Táblázatból keressük ki, hogy aχ2rs1eloszlás hol veszi fel az 1−αértéket. Amennyiben ez nagyobb a fent kiszámítottχ2értéknél, akkor a nullhipotézist elfogadjuk, ellenkez ˝o esetben elvet-jük.

A gyakorlatban sokkal többször fordul el ˝o az az eset, amikor az események valószín˝uségeit nem ismerjük. Ekkor a valószín˝uségeket az események relatív gyakoriságával becsüljük meg. Jelöljük az Aiesemény gyakoriságát ki.-vel, tehát ki.=∑sj=1ki j és hasonlóan Bjesemény gyakoriságát k.j-vel.χ2 próbák során az adatok szemléltetésének gyakran használt eszköze az ún. kontingencia-táblázat. Ez egy többdimenziós táblázat, amely celláiban a megfelel ˝o esemény bekövetkezésének száma található.

Egy ilyen 2-dimenziós kontingencia-táblázatot láthatunk a következ ˝o ábrán.

B1 B2 . . . BsA1 k11 k12 k1s k1.

A2 k21 k22 k2s k2.

...

Ar kr1 kr2 krs kr.

k.1 k.2 k.s n

Az AiBjmegfigyelt értéke ki j, várt értéke H0esetén n·ki.

n ·k.j

n . Ezek alapjánχ2értéke : χ2=

r i=1

s j=1

(ki jki.k.j

n )2 ki.k.j

n

Mivel a függetlenség fennállása esetén r1 darab pi-t és s1 darab qj valószín˝uséget kell megbe-csülni, így a fenti H0fennállása eseténχ2rs1(r+s2)2(r1)(s1) eloszlású.

2.6. Algoritmus-elmélet

Terjedelmi okok miatt csak felsorolni tudjuk azokat az algoritmusokat, amelyeket az olvasónak ismernie kell. Ezek pedig : lineáris-, bináris keresés, mélységi-, szélességi bejárás, Kruskal algoritmu-sa minimális súlyú feszít ˝ofa meghatározásához stb. Emellett feltételezzük, hogy az olvasó tisztában van az NP-teljesség (vagy általánosabban a bonyolultság) elméletének alapjaival.

2.7. Adatstruktúrák

Feltételezzük, hogy az olvasó tisztában van a lista (vektor) és a tömb fogalmával. Az adatbányá-szatban további közkedvelt adatstruktúrái az ún. szófa (trie), vagy más néven prefix-fa (prefix-tree), a piros-fekete fa, illetve a hash-tábla.

2.7.1. Szófák

A szófát eredetileg szótár szavainak tárolásánál alkalmazták, annak érdekében, hogy gyorsan el lehessen dönteni, hogy egy adott szó szerepel-e a szótárban [26], [36]. A szavak az abc felett értel-mezett sorozatok, így általánosan azt mondhatjuk, hogy egy szófa egy adott véges elemhalmaz feletti sorozatok tárolására és gyors visszakeresésére alkalmas adatstruktúra. A szófa angol neve (trie, amit úgy ejtünk, mint a try szót) a visszakeresés angol fordításából származik (re$ val). A továbbiak-ban az alaphalmaztI-vel, az alaphalmaz felett értelmezett, adott sorozatok halmazát szótárnak hívjuk.

A 2.1 ábrán egy szófát láthatunk, mely az C, FC, FB, CBP, FCAMP, FCABM sorozatokat tárolja.

A szófa egy (lefelé) irányított gyökeres címkézett fa. Egy d-edik szint˝u pontból csak d+1-edik szint˝u pontba mutathat él. Néha a hatékonyság kedvéért minden pontból a pont szül ˝ojére is mutat él. A gyökeret 0. szint˝unek tekintjük. A címkék az I-nek egy-egy elemei. Minden pont egy elemso-rozatot reprezentál, amely a gyökérb ˝ol ebbe a pontba vezet ˝o éleken található elemekb ˝ol áll. Akkor tartalmazza a szófa az S sorozatot, ha van olyan pont, amely az S-t reprezentálja.

Ha egy sorozatot tartalmaz egy szófa, akkor annak tetsz ˝oleges prefixét is tartalmazza. A prefix azonban nem biztos, hogy eleme a szótárnak. Ezt a problémát kétféleképpen lehet kiküszöbölni. Egy-részr˝ol megkülönböztetünk elfogadó és nem elfogadó pontokat. Egy sorozatot akkor tartalmazza a szófa, ha van olyan elfogadó állapot, amely a sorozatot reprezentálja. Másrészr ˝ol bevezethetünk egy speciális elemet, amit minden sorozat végére illesztünk, továbbá sorozatot csak levél reprezentálhat.

A szófának két implementációját különböztetjük meg attól függ ˝oen, hogy milyen technikát alkal-mazunk az élek tárolására. Az ún. táblázatos implementációban (tabular implementation) [36] minden ponthoz egy rögzített hosszúságú, mutatókat tartalmazó vektort veszünk fel. Az i-edik mutató mutat

0

1 2

3 4 5

6 7

8 9

10 11

F C

C

B B

A P

M B

P M

2.1. ábra. Példa szófára

az i-edik elemhez tartozó él végpontjára. Ha a pontnak nincs ilyen címkéj˝u éle, akkor a mutató értéke NULL. A vektor hossza azIelemszámával egyezik meg.

A láncolt listás implementációban [26] az éleket egy láncolt listában tároljuk. A lista elemei él-címke, gyermekmutató párok. A láncolt lista következ ˝o elemére mutató mutatókat megspórolhatjuk, ha egy vektort alkalmazunk, aminek hossza megegyezik a pont éleinek számával, és elemei szintén címke, mutató párok. Ez azért is jó megoldás, mert egy lépéssel tudunk tetsz ˝oleges index˝u elemre lépni (a címke, mutató pár memóriaszükségletének ismeretében), és nem kell a mutatókon keresztül egyesével lépegetnünk.

Szófák esetében a legfontosabb elemi m˝uvelet annak eldöntése, hogy egy adott pontnak van-e adott címkéj˝u élvan-e, és ha van, akkor van-ez hova mutat. Táblázatos implvan-emvan-entációnál van-ezt a fvan-eladatot

Szófák esetében a legfontosabb elemi m˝uvelet annak eldöntése, hogy egy adott pontnak van-e adott címkéj˝u élvan-e, és ha van, akkor van-ez hova mutat. Táblázatos implvan-emvan-entációnál van-ezt a fvan-eladatot

In document Bodon Ferenc (Pldal 16-0)