• Nem Talált Eredményt

Az adatb´any´aszat felt´etelei

1. Bevezet´es 10

1.6. Az adatb´any´aszat felt´etelei

Tagadhatatlan, hogy a sikertelen adatb´any´aszati projektek sz´ama nagy, ´es az adatb´any´aszat na-gyon sok esetben nem v´altotta be a hozz´a f˝uz¨ott rem´enyeket. Ennek oka egyr´eszr˝ol az adatb´any´aszati

szakemberhi´any (a j´o adatb´any´aszati szakember ritka, mint a feh´er holl´o), m´asr´eszr˝ol az, hogy alap-vet˝o felt´etelek nem teljes¨ultek a projektek sor´an. A sikeres adatb´any´aszati projekt egyik legfontosabb felt´etele az adatb´any´asz ´es a ter¨ulet szak´ert˝oj´enek szoros egy¨uttm˝uk¨od´ese. A tov´abbi felt´etelek az al´abbiak:

Nagy mennyis´eg˝u adat: A nagy mennyis´eg˝u adat a kinyert szab´alyok statisztikai jelent˝os´eg´et n¨ove-li. Min´el nagyobb az adatmennyis´eg, ann´al biztosabban tudjuk kiz´arni bizonyos ¨osszef¨ugg´esek esetis´eg´et, azaz ann´al kisebb az es´elye, hogy a tal´alt ¨osszef¨ugg´es csak a v´eletlen eredm´enye.

Sajnos sok adatot sok´aig tart feldolgozni, s˝ot az algoritmusok egy jelent˝os r´esze ´erz´ekeny arra, hogy az adatb´azis elf´er-e a mem´ori´aban.

Sok attrib´utum: Ha az objektumokat le´ır´o attrib´utumok sz´ama kicsi, akkor hagyom´anyos eszk¨oz¨okkel (grafikonok, egyszer˝u t´abl´azatok, kis dimenzi´os, forgathat´o, sz´ınes ´abr´ak, . . . ) is fel tudjuk t´arni a tud´ast. Kev´es attrib´utum eset´en a kinyerhet˝o tud´as sem lehet t´ul sokf´ele. Az adatb´any´aszat ereje akkor mutatkozik meg, amikor az attrib´utumsz´am olyan nagy, hogy a ha-gyom´anyos m´odszereknek nincs es´ely¨uk.

Tiszta adat: Az adatok j´o min˝os´ege az adatb´any´aszat egyik alapfelt´etele. A zajok, a hib´as be-jegyz´esek j´o esetben csak nehez´ıtik az adatb´any´aszatot (p´eld´aul amikor ismerj¨uk az adatokban tal´alhat´o zaj, ill. bizonytalans´ag fok´at), rosszabb esetben azonban hamis eredm´enyekhez vezet-nek. Az ilyen rossz min˝os´eg˝u adatokra remek p´elda haz´ank orvosi adatb´azisa (rengeteg hib´as bejegyz´es, kit¨oltetlen mez˝o, elt´er˝o m´ert´ekegys´eg alap´u bejegyz´esek, sz¨oveges bejegyz´esek), pe-dig az ezekb˝ol kinyert inform´aci´ok ´ert´ekesek lenn´enek. A ”szem´ethalmazban” val´o kutakod´ast tr´ef´asan GIGO-nak (garbage in, garbage out2) nevezik.

Torz´ıtatlan adat: Az adatb´any´aszat sikeress´ege m´ulhat az adatok nem megfelel˝o kiv´alaszt´as´an.

Ide tartoz´o fogalom az ´un. BIBO (bias in, bias out3), amely arra h´ıvja fel a figyelm¨unket, hogy ha egy r´eszsokas´ag alapj´an akarunk k¨ovetkeztetni az alapsokas´agra, akkor figyelembe kell venn¨unk a r´eszsokas´ag kiv´alaszt´as´anak szempontjait, illetve az abb´ol ad´od´o (esetleges) torz´ıt´asokat. P´eld´aul, ha a lakoss´agot az anyagi helyzet szerint akarjuk csoportokba sorolni, de csak nyugat-magyarorsz´agi adatok ´allnak rendelkez´es¨unkre, akkor tudnunk kell, hogy a ka-pott eredm´eny (a csoportok le´ır´asa) torz lesz, hiszen a r´eszsokas´ag ´atlag ´eletsz´ınvonala jobb az alapsokas´ag´en´al.

Alkalmaz´asi ter¨ulet akci´ok´epess´ege: Gyakran el˝ofordul, hogy a tud´ast csak kinyerik, de a fel-haszn´al´asa elmarad. Gyakran a felhaszn´al´asi ter¨uletek t´ul merevek, vagy a v´altoztat´as t´uls´agosan magas k¨olts´egekkel j´arna. A legt¨obb adatb´any´aszati esettanulm´anyban a tud´as ki-nyer´es´enek m´odj´ar´ol esik sz´o, a tud´as felhaszn´al´as´ar´ol pedig ritk´an hallunk.

A befektet´es megt´er¨ul´es´enek (Return On Investment) m´erhet˝os´ege: Egy adatb´any´aszati pro-jektr˝ol akkor ´all´ıthatjuk biztosan, hogy sikeres, ha a befektet´es hat´as´at m´erni, vagy viszonylag pontosan becs¨ulni tudjuk.

A jegyzet fejezeteiben a legkev´esb´e ismert, de napjainkban egyre nagyobb teret nyer˝o ter¨uleteket j´arjuk k¨or¨ul: a gyakori mint´ak kinyer´es´et, az attrib´utumok k¨oz¨otti ¨osszef¨ugg´esek meghat´aroz´as´at, a

2szem´et be, szem´et ki

3torz´ıt´as be, torz´ıt´as ki

sorozatelemz´est, a klaszterez´est ´es a webes adatb´any´aszatot. Minden esetben az algoritmusok gya-korlati felhaszn´al´as´at p´eld´akon kereszt¨ul szeml´eltetj¨uk; emellett megadjuk a probl´em´ak form´alis de-fin´ıci´oit, ´es bemutatjuk a legismertebb, leghat´ekonyabb algoritmusokat is. A jegyzet tov´abbi c´elja, hogy ¨osszefoglalja az eddig nem, vagy csak kis hat´ekonys´aggal megoldott probl´em´akat, tov´abb´a a jelenlegi kutat´asi ter¨uleteket.

Alapfogalmak, jel¨ol´esek

Ebben a r´eszben tiszt´azzuk a jegyzet sor´an haszn´alt fogalmak jelent´es´et. C´elszer˝u akkor ´atn´ezn¨unk e fejezet egyes r´eszeit, amikor az olvas´as sor´an olyan r´eszbe ¨utk¨oz¨unk, ami nem teljesen tiszta.

2.1. Halmazok, rel´aci´ok, f¨uggv´enyek, sorozatok

A halmazk¨ul¨onb¨oz˝o objektumok egy¨uttese, amelyeket a halmaz elemeinekh´ıvunk. Ha xeleme aH halmaznak, akkor azt ´ıgy jel¨olj¨uk:xH, a halmaz elemeinek sz´am´at (r¨ovidebbenelemsz ´am´at) pedig|H|-val. A jegyzetben a term´eszetes sz´amok halmaz´at ({0,1,. . .})N-el jel¨olj¨uk, a val´os sz´amok halmaz´at R-el, az eg´esz sz´amok halmaz´at Z-vel, az ¨ures halmazt (egyetlen elemet sem tartalmaz´o halmaz) /0-val. K´et halmaz akkor egyezik meg, ha ugyanazok az elemeik.X r´eszhalmazaY-nak (X⊆

Y), haX minden elemeY-nak is eleme. HaXY, deX 6=Y, akkorX val´odi r´eszhalmaza Y-nak.

A val´odi jelz˝ot gyakran fogjuk haszn´alni, ´es a val´odi r´eszhalmaz anal´ogi´aj´ara azt ´ertj¨uk rajta, hogy az egyenl˝os´eget kiz´arjuk. Sajnos a superset angol sz´onak nincsen ´altal´anosan elfogadott ford´ıt´asa, pedig sokszor szeretn´enk haszn´alni. Azt fogjuk mondani, hogyY b˝ovebb X-n´el, ha (X ⊆Y). A hal-mazm˝uveletek jel¨ol´ese ´es pontos jelent´es¨uk: metszet:XY={z:zX ´eszY}, uni´o:XY={z: :zX vagyzY}, k¨ul¨onbs´eg:X\Y ={z:zX ´esz6∈Y}.

K´et halmaz (X,Y)Descartes-szorzata(X×Y) az ¨osszes olyan rendezett p´arb´ol ´all´o halmaz, amely-nek az els˝o komponense (tagja)X-ben, a m´asodikY-ban van. AzX,Y halmazokon ´ertelmezettbin ´aris rel´aci´oazX×Y r´eszhalmaza. Ha(x,y)eleme aφrel´aci´onak, akkor azt ´ıgy is jel¨olhetj¨uk:xφy. A rel´aci´or´eszben rendez´es(vagy parci´alis rendez´es), hareflex´ıv(xx),antiszimmetrikus(xy´esyx felt´etelekb˝ol k¨ovetkezik, hogyx=y), tranzit´ıv (xy ´esyzfelt´etelekb˝ol k¨ovetkezik, hogyxz).

Ha az el˝oz˝o 3 felt´etelben az antiszimmetrikus helyett szimmetrikusat (x y-b˝ol k¨ovetkezik, hogy yx) mondunk, akkor ekvivalencia-rel´aci´or´ol besz´el¨unk. A tov´abbiakban, tetsz˝oleges rendez´es eset´en, hax6=y ´esxy, akkor azt ´ıgy jel¨olj¨uk xy. LegyenX r´eszhalmaza X0. AX0 halmaznak yX egyals´o korl´atja, hayxmindenxX0-re. Azy legnagyobb als´o korl´at, ha mindeny0 als´o korl´atra y0y. Az y maxim´alis als´o korl´atja X0-nak, ha nem l´etezik olyan y-t´ol k¨ul¨onb¨oz˝oy0 als´o korl´at, amireyy0. Hasonl´oan ´ertelmezhet˝o a fels˝o, legkisebb fels˝o, minim´alis fels˝o korl´at fogalmak is. A ≺rendez´es teljes rendez´es, ha minden x6=y elemre xy, yx k¨oz¨ul az egyik fenn´all. Az (X,)p´arosth´al´onaknevezz¨uk, haazX-en ´ertelmezett parci´alis rendez´es, ´es tetsz˝olegesx,yX elemeknek l´etezik legnagyobb als´o (jel¨ol´esben:xy) ´es legkisebb fels˝o korl´atjuk (xy).

K¨ozponti fogalom lesz a lexikografikus rendez´es. N´ezz¨uk el˝osz¨or ennek a matematikai de-fin´ıci´oj´at. LegyenX ´esY k´et halmaz, amelyeken ´ertelmezve van egy-egy parci´alis rendez´es (≺X,≺Y).

20

Azt mondjuk, hogy a(x1,y1)∈X×Y lexikografikusan megel˝ozi(x2,y2)∈X×Y p´art, ha x1Xx2, vagyx1=x2´esy1Yy2. A lexikografikus rendez´est tetsz˝oleges sz´am´u halmaz Descartes-szorzat´ara is kiterjeszthetj¨uk rekurz´ıv m´odon az al´abbiak alapj´an:X×Y×Z=X×(Y×Z). L´athat´o, hogy a lexiko-grafikus rendez´est Descartes szorzatokon ´ertelmezz¨uk, vagy m´as sz´oval olyan ¨osszetett strukt´ur´akon, amelyeknek ugyanannyi tagjuk van (n-eseknek is h´ıvj´ak ezeket). Mi ezt szeretn´enk ´altal´anos´ıtani, hiszen p´eld´aul szavak sorba rendez´es´en´el is el˝ofordulnak elt´er˝o hossz´us´ag´u szavak. Ha a r¨ovidebb sz´o megegyezik a hosszabb sz´o els˝o fel´evel (p´eld´aul komp ´es kompenz´al szavak), akkor megegyez´es alapj´an a r¨ovidebb sz´o el˝ozi meg lexikografikusan a hosszabbikat. Ezek alapj´an mindenki tudja de-fini´alni a lexikografikus rendez´est elt´er˝o sz´am´u halmazok Descartes szorzat´ara. A legt¨obb esetben a Descartes szorzat tagjainak halmaza ´es a rajtuk defini´alt rendez´esek megegyeznek (pl.: X =Y ´es

X =≺Y). Ilyenre, adott rendez´es szerinti lexikografikus rendez´esk´ent hivatkozunk.

Az X,Y halmazokon ´ertelmezett f bin´aris rel´aci´o f¨uggv´eny, ha b´armelyxX eset´en pontosan egy olyanyY l´etezik, hogy(x,y)f. Ez jel¨ol´esben f :XY, ´es, ha(x,y)f, akkor y= f(x).

AzX halmazt a f ´ertelmez´esi tartom´any´anakh´ıvjuk (vagy m´ashogy: f azX-en ´ertelmezett),Y-t az f k´ephalmaz´anak, az f(X)halmazt pedig az f ´ert´ekk´eszlet´enek. Azt a f¨uggv´enyt, amely ´ugy kapunk, hogy el˝osz¨or a f, majd azg f¨uggv´enyt alkalmazzuk gf-el jel¨olj¨uk. Predik´atumegy f¨uggv´eny, ha az ´ert´ekk´eszlete az{igaz,hamis}halmaz.Sz¨urjekt´ıvegy f¨uggv´eny, ha a k´ephalmaza megegyezik az

´ert´ekk´eszlet´evel, injekt´ıv (vagy m´as n´even egy-egy ´ertelm˝u lek´epz´es), ha az ´ertelmez´esi tartom´any b´armely k´et k¨ul¨onb¨oz˝o elem´ehez k¨ul¨onb¨oz˝o ´ert´eket rendel ´es bijekt´ıv (m´ask´eppen a f¨uggv´eny egy bijekci´o), ha sz¨urjekt´ıv ´es injekt´ıv is egyben.

LegyenHtetsz˝oleges halmaz. Az f:

z }|n {

H×· · ·×HHf¨uggv´enytnv´altoz´osm˝uveletneknevezz¨uk.

AH halmazon ´ertelmezett k´etv´altoz´os?m˝uveletetasszociat´ıvnak nevezz¨uk, ha tetsz˝olegesa,b,c

H eset´en (a?b)?c= a?(b?c). A (H, ?) p´art f´elcsoportnak nevezz¨uk, ha ? a H-n ´ertelmezett asszociat´ıv m˝uvelet. A (H, ?) f´elcsoport elemein aH elemeit ´ertj¨uk. Ha a (H, ?) f´elcsoport elemei k¨oz¨ott l´etezik olyaneelem, amelyree?a=a?e=amindenaH elemre, akkore-tegys´egelemnek h´ıvjuk ´es egys´egelemes f´elcsoport´ol besz´el¨unk. Ha egy egys´egelemes f´elcsoportban minden elemnek l´etezik invere, akkor csoportr´ol besz´el¨unk. Az a inverz´ere (a1) teljes¨ulj¨on, hogy a?a1 =a1?

?a=e. A csoport ´Abel-csoport, ha a ? m˝uvelet kommutat´ıv(a?b=b?a) is. A (H, ?,+) h´armas egy gy˝ur˝u, amennyiben (H, ?) ´Abel csoport, (H,+) f´elcsoport ´es a ?,+ m˝uveletek disztribut´ıvak egym´asra n´ezve, azaz(a+b)?c=a?c+b?c.

Sokat fogjuk haszn´alni a sorozat fogalm´at. LegyenS egy halmaz. Az f :N→S f¨uggv´enyt azS felett ´ertelmezett sorozatnak h´ıvjuk. Le´ır´as´ara az f(0), f(1), . . .helyett a hs0,s1, . . .ijel¨ol´est fogjuk haszn´alni. V´eges sorozatok eset´eben az f ´ertelmez´esi tartom´anya (´altal´aban az {1,2,. . . ,n}) v´eges halmaz. V´eges sorozathosszaaz ´ertelmez´esi tartom´any´anak elemsz´ama. Az S=hs1,s2, . . .sni,S0=

=hs01,s02, . . .s0n0isorozat konkaten´aci´oj´an azhs1,s2, . . .sn,s01,s02, . . .s0n0isorozatot ´ertj¨uk, ´eshS,S0i-el jel¨olj¨uk.

2.2. Line´aris algebra

Felt´etelezz¨uk, hogy az olvas´o tiszt´aban van a m´atrix, vektor, illetve a m´atrix (vektor) transz-pon´altj´anakfogalm´aval. A hagyom´anyoknak megfelel˝oen azAm´atrixi-edik sor´ab´ol k´epzett vektort Ai-vel jel¨olj¨uk, ||v||-vel avvektor euklideszi norm´aj´at (q

iv2i) ´esvTw-vel avT,wvektrok skal´aris szorzat´at (∑ivTi wi).

2.3. Gr´afelm´elet

Ir´any´ıtott gr´af egyG = (V,E) p´ar, aholV cs´ucsok (vagy pontok) v´eges halmaza, E pedig egy bin´aris rel´aci´oV-n. E elemeit ´elekneknevezz¨uk. Ha(u,v)E, akkor azu,vcs´ucsok egym´as szom-sz´edai. Ir´any´ıtatlan gr´afr´ol besz´el¨unk, ha az E rel´aci´o szimmetrikus. A c´ımk´ezett (vagy s´ulyozott) gr´afn´al a cs´ucsokhoz,c´ımk´ezett ´el˝u(vagy ´els´ulyozott) gr´afn´al pedig az ´elekhez rendel¨unk c´ımk´eket.

A c´ımk´ezett ´el˝u gr´afots´ulyozott gr´afnak h´ıvjuk, ha a c´ımk´ek sz´amokkal kifejezhet˝o s´ulyokat jelen-tenek. A gr´af m´eret´en (|G|) a cs´ucsok sz´am´at ´ertj¨uk. Egy cs´ucs fok´an a cs´ucsot tartalmaz´o ´eleket

´ertj¨uk. Ir´any´ıtott gr´afokn´al megk¨ul¨onb¨oztet¨unkkifokot ´esbefokot. AGir´any´ıtatlan gr´af k-regul ´aris, ha minden cs´ucs foka pontosank.

AG0= (V0,E0)gr´af aG= (V,E)r´eszgr´afja, haV0V ´esE0E. AG= (V,E)gr´afV0V ´altal fesz´ıtett r´eszgr´afja(induced subgraph) az aG0= (V0,E0) gr´af, aholE0={(u,v)E :u,vV0}. A G1(V1,E1)izomorf aG2(V2,E2)gr´affal, jel¨ol´esbenG1∼=G2, ha l´etezikφ:V1V2bijekci´o, amelyre (u,v)E1eset´en(φ(u),φ(v))∈E2is fenn´all. C´ımk´ezett gr´afokn´al emellett megk¨ovetelj¨uk, hogy azu cs´ucs c´ımk´eje megegyezz´ek aφ(u)c´ımk´ej´evel mindenuV1-re, c´ımk´ezett ´el˝u gr´afn´al pedig az(u,v) c´ımk´eje egyezzen meg a(φ(u),φ(v))´el c´ımk´ej´evel. HaG∼=G, akkorautomorfizmusr´olbesz´el¨unk.

A gr´afok ´abr´azol´as´anak elterjedt m´odja a szomsz´edoss´agi m´atrix (adjacency matrix) ´es a szom-sz´edoss´ag lista. Az |G| × |G| m´eret˝u A szomsz´edoss´agi m´atrix ai j eleme 1 (´elc´ımk´ezett esetben az

´el c´ımk´eje), ha a G gr´af i-edik cs´ucs´ab´ol indul ´el a j-edik cs´ucsba, k¨ul¨onben 0. Term´eszetesen a szomsz´edoss´agi m´atrixat a gr´afon k´ıv˝ul az hat´arozza meg, hogy melyik cs´ucsot h´ıvjuk az els˝onek, m´asodiknak, ... A szomsz´edoss´agi gr´afot teh´at a gr´af ´es az f :V → {1, . . . ,|V|}bijekci´o adja meg.

Hurok´el n´elk¨uli, c´ımk´ezett gr´afban a szomsz´edoss´agi m´atrixaiieleme azics´ucs c´ımk´ej´et t´arolja. A szomsz´edoss´agi lista|G|darab lista, ahol azi-edik lista t´arolja azi-edik cs´ucs szomsz´edait.

Azucs´ucsot azu0cs´uccsal ¨osszek¨ot˝ok-hossz´u´uton cs´ucsoknak egy olyan (v´eges)hv0,v1, . . . ,vki sorozat´at ´ertj¨uk, amelyreu=v0,u0=vk, ´es(vi1,vi)∈E(i=1,2, . . . ,k). Egy ´utegyszer˝u, ha a benne szerepl˝o cs´ucsok p´aronk´ent k¨ul¨onb¨oz˝ok. Ahv0,v1, . . . ,vki´utk¨or, hav0=vk, ´es az ´ut legal´abb egy ´elt tartalmaz. Egy gr´afot ¨osszef¨ugg˝onekh´ıvunk, ha b´armely k´et cs´ucsa ¨osszek¨othet˝o ´uttal. A k¨ormenetes, ir´any´ıt´as n´elk¨uli gr´afoterd˝onekh´ıvjuk. Ha az erd˝o ¨osszef¨ugg˝o, akkor pedigf´anak. Az olyan f´at, amely tartalmazza egyGgr´af minden cs´ucs´at, aG fesz´ıt˝of´aj´anakh´ıvjuk.

A gy¨okeres f´aban az egyik cs´ucsnak kit¨untetett szerepe van. Ezt a cs´ucsotgy¨ok´ernek nevezz¨uk.

A gy¨ok´erb˝ol egy tetsz˝oleges x cs´ucsba vezet˝o (egy´ertelm˝uen meghat´arozott) ´ut ´altal tartalmazott b´armelyycs´ucsot azx ˝os´eneknevez¨unk. Azt is mondjuk ekkor, hogyxazy lesz´armazottja. Hax6=y, akkorval´odi ˝osr˝ol´esval´odi lesz´armazottr´olbesz´el¨unk. Ha az ´utonx1 ´elen kereszt¨ul ´erhet˝o ely-b´ol, akkorxazy gyereke´esyazx sz¨ul˝oje. Ha k´et cs´ucsnak ugyanaz a sz¨ul˝oje, akkortestv´ereknekmondjuk

˝oket.

AG=(V,E)gr´afS,V\S v´ag´as´anaV halmaz k´etr´eszes part´ıci´oj´at ´ertj¨uk. Az(u,v)E ´elkeresztezi azS,V\Sv´ag´ast, ha annak egyik v´egpontjaS-ben a m´asikV\S-ben van. Egy v´ag´ass ´ulya– s´ulyozott gr´afok eset´eben – megegyezik a v´ag´ast keresztez˝o ´elek ¨osszs´uly´aval.

2.4. Val´osz´ın˝us´egsz´am´ıt´as

Felt´etelezz¨uk, hogy az olvas´o tiszt´aban van a val´osz´ın˝us´egi v´altoz´o, val´osz´ın˝us´egi v´altoz´o el-oszl´as´anak, s˝ur˝us´egf¨uggv´eny´enek, eloszl´asf¨uggv´eny´enek a val´osz´ın˝us´egi v´altoz´o v´arhat´o ´ert´ek´enek (E[X] =µ=∑x·p(x)) ´essz´or´as´anak(D2[X] =σ2=E[(Xµ)2]) vagy ´altal´anosan azn-edik centr´alis

momentumokfogalm´aval (Dn[X] =E[(Xµ)n]), tov´abb´a k´et val´osz´ın˝us´egi v´altoz´o k¨oz¨otti kovarian-ci´at (1nni=1(xiµx)(yiµy)) ´es korrel´aci´ot (√ ni=1(xiµx)(yiµy)

ni=1(xiµx)2

ni=1(yiµy)2).

Kev´esb´e ismert aferdes´eg, ami egy eloszl´as asszimetri´aj´at pr´ob´alja megadni. Ha a ferdes´eg nulla, akkor az eloszl´as szimmetrikus (p´eld´aul norm´alis eloszl´asokn´al), ellenkez˝o esetben a v´arhat´o ´ert´ekt˝ol balra (negat´ıv ferdes´eg eset´eben) vagy jobbra ”ny´ulik el”. A ferdes´egnek t¨obb mutat´oj´at defini´alt´ak;

ezek k¨oz¨ul a legelterjedtebb aγ1= (DD2[X])3[X]3/2), de szok´as m´eg aβ1=√γ1-et is hasz´alni.

Szint´en nem az alapfogalmak k¨oz´e tartozik a lapults´agfogalma, ami egy eloszl´as cs´ucsoss´ag´at adja meg. A lapults´agnak is t¨obb elfogadott defin´ıci´oja l´etezik. Legelterjedtebb aβ2=(DD24[X[X])]2 (kurtosis proper), ´es aγ22−3 (kurtosis excess) ´ert´ekek. A norm´alis eloszl´asβ2lapults´agi ´ert´eke h´arom, a norm´alisn´al laposabbak´e h´aromn´al kisebb. A ferdes´eget ´es a lapults´agot annak eld¨ont´es´en´el szokt´ak haszn´alni, hogy egy adott minta sz´armazhat-e norm´alis eloszl´asb´ol.

2.4.1. Hoeffding-korl´at

A Hoeffding-korl´at a mintav´etelz´essel kapcsolatos ´all´ıt´asok alapja.

2.1. lemma. Legyen Xi,1≤in µ v´arhat´o ´ert´ek˝u, f¨uggetlen, azonos eloszl´as´u val´osz´ın˝us´egi v´altoz´ok

´es aXib minden i-re. Ekkor tetsz˝olegesλ>0-ra fenn´all a k¨ovetkez˝o egyenl˝otlens´eg:

Ph1

LegyenX egy diszkr´et val´osz´ın˝us´egi v´altoz´o, amely ´ert´ekeit egyXhalmazb´ol veheti fel. AzlX =

=−log2p(X)val´osz´ın˝us´egi v´altoz´ot azX entr´opias˝ur˝us´eg´eneknevezz¨uk.X entr´opi´aj´at –H(X)-et – ezen v´altoz´o v´arhat´o ´ert´ek´evel defini´aljuk:

H(X) =−

xX

p(x)log2p(x).

Az entr´opia valamik´eppen a v´altoz´obizonytalans´ag´at fejezi ki. HaXelemsz´ama r¨ogz´ıtett ´es azX v´altoz´o csak egy ´ert´eket vehet fel (mert az egyik ´ert´ek val´osz´ın˝us´ege 1), akkorH(X) ´ert´eke 0 (nincs bizonytalans´ag), ha pedig X eloszl´asa egyenletes eloszl´ast k¨ovet, akkor az entr´opia a maximum´at veszi fel, log2(|X|)-t.

LegyenX ´esY k´et diszkr´et ´ert´ek˝u val´osz´ın˝us´egi v´altoz´o. Az X-nek azY felt´etellel vett felt´eteles entr´opi´aja:

H(X|Y) =−

yY

xX

p(x,y)log2p(x|y), vagy egy kicsit ´atalak´ıtva kapjuk, hogy

H(X|Y) =−

hogy a felt´eteles entr´opia megadja, hogy mennyi bizonytalans´ag marad X-ben, ha elvessz¨uk az Y bizonytalans´ag´at.

A felt´eteles entr´opia sz´amos tulajdons´aga k¨oz¨ul mi csak az al´abbit fogjuk felhaszn´alni:

0≤H(X|Y)≤H(X).

2.5. Statisztika

A statisztik´aban ´altal´abanX1,X2, . . . ,Xnf¨uggetlen, azonos eloszl´as´u val´osz´ın˝us´egi v´altoz´ok van-nak megadva, amiketmint´aknaknevez¨unk. Az eloszl´ast nem ismerj¨uk pontosan, de rendelkez´es¨unkre

´allnak megfigyel´esek.

Legyenek X1,X2, . . . ,Xn f¨uggetlen, azonos eloszl´as´u val´osz´ın˝us´egi v´altoz´ok. Ekkor a ¯X =

=X1+X2+n···+Xn val´osz´ın˝us´egi v´altoz´otempirikus k¨oz´epnek, vagyminta´atlagnak, asn2=n11ni=1(Xi

X¯)2val´osz´ın˝us´egi v´altoz´ot pedigkorrig´al empirikus szor´asn´egyzetneknevezz¨uk.

2.2. defin´ıci´o. Legyenek ξ12, . . . ,ξn egym´ast´ol f¨uggetlen, standard norm´alis eloszl´as´u val´osz´ın˝us´egi v´altoz´ok. Ekkor azni=1ξ2i val´osz´ın˝us´egi v´altoz´o eloszl´as´at n param´eter˝u χ2 el-oszl´asnak2n) nevezz¨uk.

A fentiekb˝ol k¨ovetkezik, hogy az (nσ1)s2 ∗2 val´osz´ın˝us´egi v´altoz´o eloszl´asa χ2n, amenyiben a s2 σ sz´or´as´u, norm´alis eloszl´as´u val´osz´ın˝us´egi v´altoz´ok korrig´al empirikus szor´asn´egyzet´et jel¨oli

2.3. defin´ıci´o. Legyenek X ´es Y k´et olyan val´osz´ın˝us´egi v´altoz´o, amelyek eloszl´asa rendre χ2n ´esχ2m. Ekkor a Z=YX/m/n val´osz´ın˝us´egi v´altoz´o eloszl´as´at Fn,meloszl´asnak h´ıvjuk.

2.5.1. Hipot´ezisvizsg´alat

A hipot´ezisvizsg´alat feladata mindig valamilyen ´all´ıt´as helyess´eg´enek vizsg´alata. Ezt az ´all´ıt´ast nullhipot´ezisnek nevezz¨uk, jeleH0. A nullhipot´ezis ´altal´aban egy val´osz´ın˝us´egi v´altoz´o valamely pa-ram´eter´ere vagy a v´altoz´o viselked´es´ere vonatkoz´o ´all´ıt´as. Az ´all´ıt´as igazol´as´ahoz vagy elvet´es´ehez k´ıs´erletezget´esek, mint´ak ´allnak rendelkez´es¨unkre. Ha a mint´ak alapj´an a nullhipot´ezist elvetj¨uk, hol-ott az igaz, akkorels˝ofaj´u hib´atk¨ovet¨unk el. Ellenkez˝o esetben – amikor a nullhipot´ezis hamis, de mi elfogadjuk – m´asodfaj´u hib´ar´olbesz´el¨unk. Puszt´an mint´ak seg´ıts´eg´evel nem tudunk teljesen biztos v´alaszt adni. A gyakorlatban egy param´eterrel (α) r¨ogz´ıtik az els˝ofaj´u hiba elk¨ovet´es´enek megenge-dett val´osz´ın˝us´eg´et. Az 1−α´ert´eket apr´oba szintj´enekh´ıvjuk.

¨Osszefoglalva teh´at, adott egy ´all´ıt´as, egy param´eter (α) ´es mint´ak sorozata. Feladatunk, hogy a mint´ak alapj´an c´afoljuk vagy igazoljuk az ´all´ıt´ast ´ugy, hogy bizony´ıthat´oanα-n´al kisebb legyen annak val´osz´ın˝us´ege, hogy az ´all´ıt´as igaz, holott mi c´afoljuk. A hipot´ezisvizsg´alatn´al a mint´ak eredm´enyeit felhaszn´alva kisz´am´ıtunk egy ´un.pr´obastatisztika ´ert´eket, ´es ezt vetj¨uk ¨ossze egy ismert eloszl´assal.

Azα-nak c´elszer˝u kis (0.1 ´es 0.01 k¨oz¨otti) ´ert´eket v´alasztani1.

2.5.2. Az F -pr´oba

Az F-pr´oba arra szolg´al, hogy k´et f¨uggetlen, norm´alis eloszl´as´u val´osz´ın˝us´egi v´altoz´o (X,Y) szor´as´anak egyenl˝os´eg´et eld¨onts¨uk.

H0XY.

1Gondolkozzunk el azon, hogy mi t¨ort´enne, haα-nak nagyon kis ´ert´eket v´alasztan´ank!

Tudjuk, hogy (nXσ1)s2 X

X ´es (nYσ1)s2 Y

Y χ2eloszl´as´uak(nX−1)illetve(nY−1)param´aterrel. Ha a nullhi-pot´ezis fenn´all, akkor az

F= sX2 sY2

pr´obastatisztikaF-eloszl´as´u(nX−1,nY−1)param´eterrel. Azonban F1 isF-elossz´as´u(nY−1,nX−1) param´eterrel, ez´ert a gyakorlatbanF=max{F,1/F} ≥1 statisztik´at szok´as haszn´alni.

2.5.3. A χ

2

-pr´oba

2pr´ob´ak az al´abbi t´etelt haszn´alj´ak fel.

2.4. t´etel. Legyen A1,A2, . . . ,Ar egy teljes esem´enyrendszer (r ≥ 3), legyen pi = P(Ai) > 0,i =

=1, . . . ,r. Ism´etelj¨uk a k´ıs´erletet n-szer egym´ast´ol f¨uggetlen¨ul. Jel¨olje Xi az Ai esem´eny bek¨ovet-kez´es´enek sz´am´at. Bel´athat´o, hogy ekkor a

r j=1

(Xjnpj)2 npj

val´osz´ın˝us´egi v´altoz´o eloszl´asa n→∞eset´enχ2r1eloszl´ashoz konverg´al.

2eloszl´as kvantiliseit f¨uggv´eny-t´abl´azatokban megtal´alhatjuk.

A χ2-pr´oba legfontosabb alkalmaz´asi ter¨uletei az (1.) illeszked´es-, (2.) f¨uggetlens´eg- ´es (3.)ho-mogenit´asvizsg´alat. T´em´ankhoz a f¨uggetlens´eg-vizsg´alat tartozik hozz´a, ´ıgy a tov´abbiakban ezt

A χ2-pr´oba legfontosabb alkalmaz´asi ter¨uletei az (1.) illeszked´es-, (2.) f¨uggetlens´eg- ´es (3.)ho-mogenit´asvizsg´alat. T´em´ankhoz a f¨uggetlens´eg-vizsg´alat tartozik hozz´a, ´ıgy a tov´abbiakban ezt