• Nem Talált Eredményt

2. Alapfogalmak, jel¨ ol´ esek 22

3.1. El˝ofeldolgoz´as

3.1.3. Mintav´etelez´es

Az adatb´any´aszati algoritmusok ´altal´aban er˝oforr´as-ig´enyesek. Ha a bemeneti adathalmaz-nak csak egy kis szelet´et, kis mint´aj´at dolgozzuk fel, akkor hamarabb kapunk eredm´enyt. A mintav´etelez´es k¨ovetkezm´enye, hogy az ´ıgy kapott eredm´eny nem biztos, hogy pontos, azaz lehet, hogy nem azt az eredm´enyt kapjuk, mint amikor a teljes adathalmazt dolgozzuk fel.

Vannak esetek, amikor a pontos eredm´enyn´el fontosabb a gyors adatfeldolgoz´as. Ilyen esetek-ben nagyon hasznos egy olyan mintam´eret meghat´aroz´asa, amin´el az algoritmus gyors, de a hib´az´as val´osz´ın˝us´ege kicsi.

”Az Elevit hat´ekonys´ag´at igazol´o klinikai vizsg´alatok k¨ozel t´ızezer magyar kismama bevon´as´aval v´egezt´ek. A vizsg´alatok sor´an az Elevit szed´es´evel kilencvenk´et sz´azal´ekkal cs¨okkent az idegrend-szeri fejl˝od´esi rendelleness´egek el˝ofordul´asa.” Forr´as : Baba Pa-tika X. ´evfolyam 10. sz´am, 44.

oldal, 2007. okt´ober : A hiba m´ert´ek´er˝ol csak abban az esetben

tu-dunk b˝ovebben nyilatkozni, ha tudjuk, milyen jelleg˝u

¨osszef¨ugg´es´eket nyer¨unk ki. Most azt a speci´alis esetet n´ezz¨uk meg, amikor elemek el˝ofordul´as´anak val´osz´ın˝us´eg´et akarjuk k¨ozel´ıteni a relat´ıv gyakoris´agukkal. Gyako-ri mint´ak, asszoci´aci´os szab´alyok, χ2 alap´u f¨ ugget-lens´egvizsg´alatn´al ez az eset ´all fenn.

Tegy¨uk fel, hogy elemek halmaz´ab´ol egy tetsz˝oleges x elem el˝ofordul´as´anak val´osz´ın˝us´ege p ´es m meg-figyel´es/minta ´all rendelkez´es¨unkre. A mintav´etelez´es hib´azik, amennyiben x relat´ıv gyakoris´aga elt´er p-t˝ol, pon-tosabban a mintav´etelez´es hib´aja :

hiba(m) =Prel. gyakoris´ag(x)−p≥ .

Jel¨oljeXi azt a val´osz´ın˝us´egi v´altoz´ot, ami 1, hax-et v´alasztottuk egyi-edik h´uz´asn´al, k¨ul¨onben 0, ´es legyenY=Pm

i=1Xi. Mivel a h´uz´asok egym´ast´ol f¨uggetlenek, azY eloszl´asam, pparam´eter˝u bin´aris eloszl´ast k¨ovet. Ezt felhaszn´alva :

hiba(m) =PY

A m´asodik egyenl˝os´egn´el kihaszn´altuk, hogy a binomi´alis eloszl´as v´arhat´o ´ert´eke m·p.

Tetsz˝oleges eloszl´as eset´en a v´arhat´o ´ert´ek´et˝ol val´o elt´er´es val´osz´ın˝us´eg´ere t¨obb ismert korl´at is l´etezik [161]. A Csernov-korl´at (amely a Hoeffding korl´at egy speci´alis esete) a k¨ovetkez˝oket adja :

P

Y ≥m·(E[X] +)

≤e22m

´es

P

Y ≤m·(E[X]−)

≤e22m amib˝ol megkapjuk, hogy :

P(hiba(m))≤2·e−22m.

Amennyiben a hibakorl´atotδ-val jel¨ol¨om, akkor az al´abbinak kell igaznak lennie, hogy m≥ 1

22ln2 δ.

Ha p´eld´aul azt szeretn´enk, hogy a mintav´etelez´es sor´an tetsz˝oleges elem minta, – illetve el˝ofordul´as´anak val´osz´ın˝us´ege – 0.01-n´al nagyobb elt´er´es val´osz´ın˝us´ege kisebb legyen 1%-n´al, akkor a minta m´erete legal´abb 27000 kell legyen. A 3.1 t´abl´azatban adott elt´er´es- ´es val´osz´ın˝us´egkorl´atokhoz tartoz´o minim´alis mintam´eret tal´alhat´o.

δ |M|

0.05 0.01 1060

0.01 0.01 27000

0.01 0.001 38000

0.01 0.0001 50000 0.001 0.01 2700000 0.001 0.001 3800000 0.001 0.0001 5000000

3.1. t´abl´azat. A minim´alis minta m´erete r¨ogz´ıtett , δ mellett

Gyan´us, hogy a v´egs˝o k´epletben nem szerepel p. ´Erezz¨uk, hogy ap figyelmen k´ıv¨ul hagy´asa nem baj, ha nagy v´arhat´o ´ert´ekekkel dolgozunk, de mi van kis val´osz´ın˝us´egek eset´en ? P´eld´aul=

=0.05 ´esδ=0.01 eset´en 1060 m´eret˝u mint´at kell venn¨unk. Hapegy ezred, akkor azt v´arjuk, hogy csak egyszer fordul el˝o a mint´aban x. M´ar ebben az esetben is a relat´ıv gyakoris´ag (1/1060 =

= 0.000943) t¨obb, mint ¨ot sz´azal´ekkal t´er el a t´enyleges val´osz´ın˝us´egt˝ol, azaz minden esetben hib´azni fogunk. Vagy m´ask´epp mondva, a hiba val´osz´ın˝us´ege 1, (nem pedig 0.01).

Minek vacakolunk mi mindenf´ele Csernov-korl´attal amikor ismerj¨uk Y s˝ur˝us´egf¨uggv´eny´et,

´ıgy tetsz˝oleges intervallumra meg tudjuk mondani az el˝ofordul´as val´osz´ın˝us´eg´et : PY −m·p≥m·

= 1−

min{bmp+mX c,m} i=max{dmpme,0}

m i

pi(1−p)mi

= 1 +F(max{bmp−mc,0}, m, p)−F(min{dmp+me, m}−1, m, p), ahol F(x, m, p)-vel az (m, p) param´eter˝u binomi´alis eloszl´as eloszl´asf¨uggv´eny´et jel¨olj¨uk. Sajnos a fenti k´eplet alapj´an nem tudunk sz´ep z´art k´epletet adni a minta m´eret´enek als´o korl´atja ´es az, δ p´aros k¨oz¨otti kapcsolatra.

Mit gondolunk ? R¨ogz´ıtett m ´es eset´en kis vagy nagy p eset´en lesz kicsi a hiba (mivel a binomi´alis eloszl´as szimmetrikus, ez´ert szor´ıtkozzunk p≤0.5 esetekre) ? A bevezet˝o p´elda azt sugallja, hogy min´el kisebb a p, ann´al nagyobb mint´at kell venni. Ez sajnos nem ´ıgy van.

0 0.05 0.1 0.15 0.2 0.25

0 20 40 60 80 100

Binom(100, 0.3) Binom(100, 0.03)

3.1. ´abra. K¨ul¨onb¨oz˝op param´eter˝u binomi´alis eloszl´asok

Amennyiben p≤, akkor amp−m≤0 ´es ´ıgy a hiba 1−F(bmp+mc, m, p)-re egyszer¨us¨odik.

Ez viszont null´ahoz tart, amennyiben p→0, hiszen

1−F(bmp+mc, m, p)≤1−F(bmc, m, p) =P(X≥ bmc)≤ mp bmc.

Az utols´o elgyenl˝otlens´egn´el a Markov egyenl˝otlens´eget haszn´altuk fel. Az eredm´eny ellentmond elv´ar´asainknak, hiszen eszerint kis val´osz´ın˝us´egeket kisebb mint´aval tudunk j´ol k¨ozel´ıteni.

Na, ´es mi vanp≥eset´en ? Tov´abbra is igaz, hogy apn¨ovel´es´evel n¨ovekszik a hiba ? A v´alasz igenl˝o. Ezt az ´all´ıt´ast csak szeml´eltetni fogjuk. Vess¨unk egy pillant´ast a 3.1 ´abr´ara, amelyen k´et, k¨ul¨onb¨oz˝op param´eter˝u binomi´alis eloszl´ast l´athatunk.

K´et dolgot vehet¨unk ´eszre. A kisebbp-hez tartoz´o maxim´alis val´osz´ın˝us´eg nagyobb. A nagy val´osz´ın˝us´egek a v´arhat´o ´ert´ek kisebb k¨ornyezet´eben tal´alhat´ok. Az ´eszrev´eteleink ´altal´anosan is igazak. A m´asodik ´eszrev´etel p´eld´aul a sz´or´assal van kapcsolatban. A kisebb p param´eter˝u eloszl´as sz´or´asa kisebb. Legyen a k´et param´eter p´es q ´es legyen p < q <0.5. Ekkor

mp(1−p) =σpq=mq(1−q) p−p2<q−q2

0<(q−p)(1−p−q)

A kisebb val´osz´ın˝us´egekn´el a v´arhat´o ´ert´ek sz˝ukebb k¨ornyezet´eben vannak a nagy val´osz´ın˝us´egek, ez´ert a v´arhat´o ´ert´ek ±m k¨ornyezet´en k´ıv¨uli pontok val´osz´ın˝us´eginek ¨osszege kisebb, azaz a hiba kisebb !

A k¨ovetkez˝o ´abr´akon az ´ervel´est t´amasztjuk al´a. A 3.2 ´abr´an a hib´at ´abr´azoljuk a minta m´erete ´es a val´osz´ın˝us´eg f¨uggv´eny´eben r¨ogz´ıtett mellett. L´atjuk, hogy ha n¨ovekszik p (vagy cs¨okken m), akkor cs¨okken a hiba val´osz´ın˝us´ege.

A 3.3 ´abr´an megint a mintav´etelez´es hib´aj´at ´abr´azoltuk, de most azmellett a minta m´erete is r¨ogz´ıtve van. Itt m´eg jobban l´atszik, hogy ahogy cs¨okken p ´ugy n˝o a hiba is.

Ha ezekn´el a param´eterekn´el a Csernov-korl´atot alkalmazzuk, akkor azt kapjuk, hogy a hiba val´osz´ın˝us´ege kisebb 1.2-n´el. Ez el´eg semmitmond´o.

Id´ezz¨uk fel a kiindul´o k´erd´est : Mit gondolunk ? R¨ogz´ıtett m ´es eset´en kis vagy nagy p eset´en lesz kicsi a hiba ? H´at, nem mondhatjuk, hogy a v´art v´alasz kaptuk. Az ember valami´ert

¨oszt¨on¨osen ragaszkodik ahhoz a v´alaszhoz, hogy kisebb val´osz´ın˝us´eg mellett nagyobb lesz a hiba. Elemez´eseink azonban pont az ellenkez˝oj´et adta. Meg kell b´ek´eln¨unk ezzel, vagy tehet¨unk valamit a zavar´o v´alasz ellen ?

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0.05 0 0.15 0.1

0.25 0.2 0.35 0.3

0.45 0.4

0.5 500 450 400 350 300 250 200 150 100 50 0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

error

P(|Y/m - p| > 0.035 )

p m

error

3.2. ´abra. A mintav´etelez´es hib´aja a minta m´eret´enek ´es az el˝ofordul´as val´osz´ın˝us´eg´enek f¨uggv´eny´eben

0 0.2 0.4 0.6 0.8 1 1.2 1.4

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

error

p

P(|Y/200 - p| > 0.035 ) 2 * exp(-2 * 0.0352 * 200)

3.3. ´abra. A mintav´etelez´es hib´aja az el˝ofordul´as val´osz´ın˝us´eg˝unek f¨uggv´eny´eben

0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.05 0.1 0.15 0.2 0.25

error

p

error = 1 - P(1/(1+0.035) < (Y/1500)/p < 1+0.035 )

3.4. ´abra. A mintav´etelez´es hib´aja az el˝ofordul´as val´osz´ın˝us´eg´enek f¨uggv´eny´eben relat´ıv hibam´er´es eset´eben

T´erj¨unk vissza a hiba defin´ıci´oj´ahoz : hiba(m) =Prel. gyakoris´ag(x)−p≥

, azaz hib´at k¨ovet¨unk el, ha a relat´ıv gyakoris´ag ´es a t´enyleges val´osz´ın˝us´eg k¨oz¨otti k¨ul¨onbs´eg nagyobb egy adott konstansn´al, amelyet-nal jel¨olt¨unk. A relat´ıv gyakoris´agnak a val´osz´ın˝us´eg egy r¨ogz´ıtett k¨ornyezet´eben kell lennie.

Szerencs´es az, hogy a hib´at a relat´ıv gyakoris´ag ´es a val´osz´ın˝us´eg k¨ul¨onbs´eg´evel m´erj¨uk ? Ez alapj´an p´eld´aul ugyanakkora hib´at k¨ovet¨unk el, ha p= 0.8 eset´en a relat´ıv gyakoris´ag 0.81 ´es hap= 0.01 eset´en a relat´ıv gyakoris´ag nulla, azaz az esem´eny nem k¨ovetkezett be egyszer sem.

Az embernek az az ´erz´ese van, hogy az els˝o esetben kisebbet hib´aztunk.

A fenti ´ervel´es alapj´an c´elszer˝ubb a hib´at a val´osz´ın˝us´eg ´es a relat´ıv gyakoris´ag h´anyados´aval m´erni. Jobban ´erdekel minket az, hogy h´any sz´azal´ekkal nagyobb vagy kisebb a relat´ıv gyako-ris´ag a val´osz´ın˝us´egn´el, mint az abszol´ut k¨ul¨onbs´eg. Ha elfogadjuk ezt az ´ervel´est, akkor a hib´at a k¨ovetkez˝ok´eppen defini´aljuk :

hiba(m) =P

rel. gyakoris´ag(x)/p≥1 + +P

rel. gyakoris´ag(x)/p≤ 1 1 +

= 1−P 1

1 + <rel. gyakoris´ag(x)/p <1 +

Enn´el a defin´ıci´on´al m´ar igaz lesz – nagyvonalakban – hogy min´el kisebb az el˝ofordul´as val´osz´ın˝us´ege, ann´al nagyobb lesz a hiba, teh´at ann´al nagyobb mint´at kell venn¨unk. Ezt t´amasztja al´a a 3.4 ´abra is.

Az ´abra mutatja, hogy t´enyleg csak nagyvonalakban igaz, hogy kisebb p-kn´el nagyobb a hiba. Szigor´uan v´eve ugyanis ez nem igaz. Ennek oka, hogy a binomi´alis eloszl´as diszkr´et eloszl´as

´es ez´ert ahogy cs¨okkentj¨uk ap-t ´es ´ugy tol´odik nem hib´at jelent˝o intervallum a nulla pont fel´e

´es fordulhat el˝o az, hogy egy ´ujabb pont beker¨ul az intervallumba. P´eld´aul = 0.035 ´es m=

= 1500 eset´eben a [pm/(1+), pm(1+)] intervallumba nem esik eg´esz ´ert´ek p= 0.007 eset´eben (hiszen a nem hib´at jelent˝o intervallum [10.1,10.9]), m´ıg p= 0.006 eset´en igen (ekkor a vizsg´alt intervallum [8.7,9.3]).

Az adatb´any´asz cikkekben mintav´etelez´es eset´en a Csernov-korl´atos megk¨ozel´ıt´essel t´amasztj´ak al´a, hogy az ´altaluk haszn´alt minta mi´ert el´eg nagy. Most m´ar tudjuk, hogy ez

az elemz´es meglehet˝osen elnagyolt. Egyr´eszt a hiba defin´ıci´oja sem t´ul j´o, m´asr´est a Csernov-korl´at alkalmaz´asa sem ad pontos eredm´enyt.

Jobb megold´as a hib´at a val´osz´ın˝us´eg ´es a relat´ıv gyakoris´ag h´anyados´ab´ol sz´armaztatni

´es Csernov-korl´at helyett a binomi´alis eloszl´ast haszn´alni. Mivel a v´egeredm´eny nem egy z´art k´eplet lesz, ez´ert a hiba vagy a sz¨uks´eges mintam´eret kisz´am´ıt´asa bonyolultabb.

A binomi´alis eloszl´as sem a legpontosabb eredm´enyt adja. Az elemz´es sor´an ugyanis felt´etelezt¨uk, hogy az esem´eny bek¨ovetkez´es´enek val´osz´ın˝us´ege ismert. A val´os´agban a mint´at egy nagy alaphalmazb´ol vessz¨uk. P´eld´aul a n´epszavaz´ast megel˝oz˝o k¨ozv´elem´eny-kutat´asokban a mint´at a feln˝ott lakoss´agb´ol vessz¨uk, amely egy v´eges halmaz. Ha ´ugy tessz¨uk fel a k´erd´est, hogy egy M alaphalmazb´ol mekkoram mint´at kell venn¨unk, hogy a mint´aban az xrelat´ıv gya-koris´aga kis m´ert´ekben t´erjen el azx M-beli relat´ıv gyakoris´ag´at´ol, akkor a binomi´alis eloszl´as helyett hipergeometrikus eloszl´ast kell haszn´alnunk.