• Nem Talált Eredményt

Nagyméret˝u adathalmazok el˝ofeldolgozása

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Nagyméret˝u adathalmazok el˝ofeldolgozása"

Copied!
68
0
0

Teljes szövegt

(1)

Nagyméret ˝u adathalmazok el ˝ofeldolgozása

Jámbor Attila

Budapesti M ˝uszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék

March 5, 2011

(2)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(3)

Bevezetés

A valós adatok rendszerint zajosak,

hiányosak, inkonzisztensek, hatalmas méret ˝uek

és több, heterogén forrásból származnak.

„Min ˝oségi adatbányászathoz min ˝oségi adatokra van szükség.”

(4)

Bevezetés

A gyenge min ˝oség ˝u adatok el ˝ofordulásának okai:

rögzítéskor még nem érhet ˝ok el az adatok

egy adat nem t ˝unik fontosnak, ezért nem rögzítjük hibás m ˝uködés a rögzítés vagy tárolás során hibásan m ˝uköd ˝o adatgy ˝ujtés

hálózati hiba továbbításkor

inkonzisztens formátumok (pl. dátum) duplikált adatok

(5)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(6)

Attribútum típusok

Attribútum típusok:

kategória típusú sorrend típusú intervallum típusú arány skálájú

(7)

Attribútum típusok

Akategória típusúattribútumnál az attribútum értékei között csak azonosságot tudunk vizsgálni.

Mindössze annyit tudunk mondani, hogya=bvagya6=b.

A kategória típusú attribútum egy speciális esete abináris attribútum, ahol az attribútum csak két értéket vehet fel.

Asorrend típusúattribútumoknál az értékeket sorba tudjuk rendezni, azaz az attribútum értékén teljes rendezést tudunk megadni.

Ha teháta6=b, akkor még azt is tudjuk, hogya<b vagya>b.

(8)

Attribútum típusok

Ha az eddigiek mellett meg tudunk adni egy, az adatokon értelmezett +függvényt, akkorintervallum típusúattribútumról beszélünk.

Ha egy intervallum típusú attribútumnál meg lehet adni zérus értéket, akkor az attribútumarány skálájú. Az arány skálájú attribútumok megadására rendszerint valós számokat használunk, így szokás ˝oket valósattribútumoknak is hívni.

(9)

Attribútum típusok

Példák különböz ˝o attribútum típusokra.

Kategória: szemszín Bináris: nem

Sorrend: legmagasabb iskolai végzettség Intervallum: születési év

Arány skálájú: testmagasság

(10)

Hasonlósági mértékek

Az adatbányászat során szükségünk lesz arra, hogy attribútumokkal leírt elemek között hasonlóságot definiáljunk. Minél több közös attribútummal rendelkezik két elem, annál hasonlóbbak egymáshoz.

A gyakorlatban a hasonlóság helyett akülönböz ˝oségetmérjük.

Tulajdonságok:

Azx ésy elem különböz ˝osége:d(x,y), d(x,x) ==0,

d(x,y) =d(y,x),

a különböz ˝oségre teljesül a háromszög egyenl ˝otlenség, azaz d(x,y)<d(x,z) +d(z,y),

ad(x,y)különböz ˝oséget azx ésy elemek távolságának is nevezik.

(11)

Bináris attribútumok különböz ˝osége

mdb bináris attribútummal leírtx ésy elemek különböz ˝osége a következ ˝o:

1 0 P

1 q r q+r

0 s t s+t

P q+s r+t m Invariáns hasonlóság: d(x,y) = r+s

Variáns hasonlóság (Jaccard-koefficiens komplementere):m d(x,y) =1− q

m−t = r +s m−t

(12)

Kategória típusú attribútumok különböz ˝osége

A különböz ˝oség mértéke a nemegyezések relatív száma:

d(x,y) = u

m, aholma kategória típusú attribútumok száma,upedig a nem egyez ˝o attribútumok száma.

A kategória típusú attribútumokra létezik aJaccard-koefficiens komplementere.

(13)

Sorrend típusú attribútumok különböz ˝osége

Sorrend típusú attribútumok esetén az egyes attribútumértékeket egész számokkal helyettesítik, majd ezeken alkalmazzák valamelyik intervallum típusú hasonlóságot.

Ha több sorrend típusú attribútumunk van, ahol a lehetséges állapotok száma eltér ˝o, akkor célszer ˝u mindegyiket a[0,1]intervallumba

normalizálni.

(14)

Intervallum típusú attribútumok különböz ˝osége

Azmdb intervallum típusú attribútummal (általában valós számokkal) leírt elemre tekinthetünk úgy, mint egy vektorra azm-dimenziós vektortérben.

Azx ésy elemek különböz ˝oségén a vektoraik különbségének normáját értjük, azazd(−→

x,−→ y) =

→x −−→ y

. Euklideszi-norma: L2(−→

z) = q

|z1|2+|z2|2+· · ·+|zm|2 Minkowski-norma: Lp(−→

z) = |z1|p+|z2|p+· · ·+|zm|p1/p

Ha bizonyos attribútumoknak nagyobb szerepet szánunk:

L2(−→ z) =

q

w1· |z1|2+w2· |z2|2+· · ·+wm· |zm|2, aholwi azi-edik attribútum súlya ésPm

i=1wi =1.

(15)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(16)

Integráció

Azintegrációsorán összegy ˝ujtjük a különböz ˝o forrásokból származó adatokat egy közös helyre, például egy adattárházba (data warehouse)

Lehetséges adatforrások:

Adatbázisok Adatkockák Fájlok

(17)

Integráció

Lehetséges nehézségek:

Entitások azonosítása (Entity identification proglem)

I Eltér ˝o attribútumnevek (customer_idvs.cust_id)

I Eltér ˝o attribútumértékek („Jámbor Attila”vs.„Jámbor A.”)

I Megoldás lehet a metaadatok vizsgálata (attribútumok értelmezése, típusa, értékkészlete; null elemek kezelése) Redundancia (éves fizetésvs.havi fizetés)

Értékkonfliktus (Data value conflict)

I Eltér ˝o reprezentáció, skálázás, kódolás

I Eltér ˝o mértékek (kilométervs.mérföld)

I Eltér ˝o tartalom (szálloda)

(18)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(19)

Transzformáció

Atranszformációsorán az adatainkat olyan formára hozzuk, hogy azok megfelel ˝oek legyenek az adatbányász algoritmusok számára.

Lépései:

Értékek kisimítása (Smoothing) Aggregálás

Általánosítás (Generalization) Új attribútumok létrehozása Adatok elrontása

Normalizálás

(20)

Transzformáció

Értékek kisimítása: Zaj és kiugró értékek eltávolítása. Lehet dobozolás, regresszió, klaszterezés.

Aggregálás: Több adat helyettesítése eggyel (havi fizetés→éves fizetés)

Általánosítás: Az alacsony szint ˝u értékeket magasabb szint ˝uekkel helyettesítjük (város→ország,életkor→fiatal/öreg)

Új attribútumok létrehozása: Új attribútumokat hozunk létre, hogy növeljük az eredmények érthet ˝oségét, az algoritmus sebességét (szélesség/magasság→terület)

Adatok elrontása:

I Megvizsgáljuk, hogy az adatbányász módszerünk mennyire érzékeny a zajra

I Publikussá szeretnénk tenni az adathalmazt azok pontos jelentése nélkül

Normalizálás: Ez hasznos lehet osztályozási feladatoknál vagy távolságszámításnál.

(21)

Normalizálás

A normalizálás során az attribútum értékkészletét egy másik (rendszerint egységnyi) tartományra transzformáljuk.

Típusai:

Min-max normalizálás v0 = v −minA

maxA−minA(new_maxA−new_minA) +new_minA Zérus pont normalizálás (z-score normalization)

v0 = v−A σA , aholAazAátlaga,σA pedigAszórása.

Decimális skálázás (Normalization by decimal scaling) v0 = v

10j,

aholja legkisebb egész szám, amireMax(|v0|)<1.

(22)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(23)

Adatok tisztítása

Az adatoktisztításarévén eltávolítjuk a zajt és kijavítjuk az inkonzisztens állapotot.

Apiszkos(dirty) adaton végzett adatbányászat eredménye megbízhatatlan a felhasználók számára.

Lépései:

Hiányzó adatok feltöltése Zaj kezelése

Inkonzisztencia feloldása

(24)

Adatok tisztítása

Hiányzó adatok feltöltése

I Figyelmen kívül hagyás/törlés: rendszerint, ha az osztályozó attribútum hiányzik

I Feltöltés kézzel: id ˝oigényes

I Globális konstans használata:„Unknown”vagy

I Ismert elemek átlagával való feltöltés

I Azonos osztályban lev ˝o rekordok átlagával való feltöltés (credit_risk)

I Legvalószín ˝ubb értékkel való feltöltés: az ismert attribútumok felhasználásával döntési fákat vagy dedukciót használva

I Több új elem létrehozás: kategória típusú attribútumoknál

(25)

Adatok tisztítása

Zaj kezelése: a zaj egy véletlen hiba vagy eltérés a mért értékekben.

I Dobozolás (binning): részletesebben a diszkretizálásnál

I Regresszió

I Klaszterezés

Inkonzisztencia feloldása

I Egyediség szabály (unique rule)

I Folytonossági szabály (consecutive rule)

I Null szabály (null rule): megmondja, hogy mely attribútumok vehetnek fel null értéket, és hogyan kell értelmezni ˝oket

(26)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(27)

Diszkretizálás (Data discretization)

A diszkretizálás (kvantálás) során az kiválasztott attribútum lehetséges értékeinek számát csökkentjük (GPS adatok).

A folyamat során az értékkészletet intervallumokra osztjuk, és az egyes intervallumokba es ˝o értékeket az intervallum „címkéjével”

helyettesítjük, amely csökkentjük és egyszer ˝usítjük az eredeti adathalamazt.

A diszkretizálás hatásaként az adatbányászat felbontása, részletessége csökken,

eredménye tömörebbé, áttekinthet ˝obbé válik, sebessége, hatékonysága n ˝o.

(28)

Diszkretizálás

A felhasznált információt tekintve a diszkretizálás lehet felügyelt (supervised): figyelembe vesz bizonyos osztály-információkat (class information)

nem felügyelt (unsupervised): nem vesz figyelembe osztály-információkat.

Irányát tekintve pedig lehet fentr ˝ol lefelé (top-down) lentr ˝ol felfelé (bottom-up)

(29)

Diszkretizálás

A diszkretizálás történhet rekurzív módon is, amikor is egy hierarchikus felbontását végezzük ez az attribútumértékeknek. A felbontásból képzett fát fogalmi hierarchiának (concept hierarchy) nevezzük.

A fogalmi hierarchiákban az alacsonyabb szint ˝u fogalmakat magasabb szint ˝u fogalmakkal helyettesítjük. Pl. az életkor megadása helyett csak annyit mondunk, hogy valakifiatal,középkorúvagyöreg.

Számos diszkretizálási algoritmus esetén a fogalmi hierarchiák automatikusan generálhatók.

(30)

Diszkretizálás

Diszkretizálási algoritmusok:

Binning, hisztogram analízis Entrópia alapú diszkretizálás χ2-összevonás

Klaszter analízis Intuitív partícionálás

(31)

Binning, histogram analízis (Histogram analysis)

Tulajdonságok:

Ládákat alakítunk ki

Az attribútumértékeket a ládák átlagával vagy mediánjával helyettesítjük

A ládák kialakítása lehet egyenl ˝o nagyságú vagy egyenl ˝o gyakoriságú

Fentr ˝ol lefelé típusú, nem felügyelt technika Leállási feltétel

I Minimum szélesség

I Maximum ládaszám

(32)

Entrópia alapú diszkretizálás (Entropy-based discretization)

Tulajdonságok:

Azt vizsgálja, hogy az egyes felbontások után hogyan változik meg az elemek entrópiája

Minden iterációban azt az elemet választja vágási pontnak, amely mentén az entrópia változás minimális

Fentr ˝ol lefelé típusú, felügyelt technika

(33)

Entrópia alapú diszkretizálás

M ˝uködés:

Az adatokat aDhalmaz jelölve. Az attribútumok között∃A,C, aholAa diszkretizálandó attribútum,Cpedig egy

osztályattribútum (class-label attribute). C={c1,c2, . . . ,cm}.

Kezdetben mindena∈Aértéket lehetséges vágási pontnak (split-point) tekintünk. Ha egya∈Aérték vágási pont, akkor aD halmaz felbonthatóD1ésD2diszjunkt halmazokra. Ekkor

D1={d ∈D|d.A≤a}

és

D2={d ∈D|d.A>a}.

(34)

Entrópia alapú diszkretizálás

Egy felbontás ideális, ha aCattribútum értékeit is diszjunkt módon bontja fel. Egy felbontás min ˝oségét az alábbiak szerint tudjuk mérni:

Qa(D) = |D1|

|D|Entropy(D1) + |D2|

|D|Entropy(D2), ahol|D|jelenti aDadathalmaz elemszámát.

Az entrópia a következ ˝oképpen számolható:

Entropy(D1) =−

m

X

i=1

pilog2(pi),

aholpi jelenti aci attribútum relatív gyakoriságát aD1-beli elemek között.

(35)

Entrópia alapú diszkretizálás

Az összesaattribútum közül azt választjuk ki vágási pontnak, amelyre aQa(D)érték minimális. Ekkor aDhalmazt felbontjukD1 ésD2halmazokra, majd ezt rekurzívan megismételjük.

Leállási feltétel:

I Qa< ε,∀aA

I A részhalmazok száma meghalad egy küszöbértéket

(36)

χ

2

-összevonás (Interval merging by χ

2

analysis)

Tulajdonságok:

Azt vizsgálja, hogy az egyes szomszédos intervallumok mennyire hasonlítanak egymásra

Minden iterációban azt a két szomszédos intervallumot vonja össze, amelyek a legjobban hasonlítanak egymásra

Lentr ˝ol felfelé típusú, felügyelt technika

(37)

χ

2

-összevonás

M ˝uködés:

Kezdetben minden bejegyzés külön intervallumnak tekintend ˝o.

HaK db intervallumunk van, akkor minden(k,k+1),0<k <K intervallumpárra kiszámoljuk aχ2értéket, majd összevonjuk azt a két intervallumot, amelyreχ2minimális volt.

Ha azAattribútumot szeretnénk diszkretizálni, ahol

A={a1,a2, . . . ,am}, akkorχ2a következ ˝oképpen számolható:

χ2k =

k+1

X

i=k m

X

j=1

oij −eij2

eij ,

aholoij jelentiaj relatív gyakoriságát azi.intervallumban, mígeij jelentiaj elvárt gyakoriságát azi.intervallumban.

(38)

χ

2

-összevonás

eij = (|Di|)×(|{d,ahol d ∈D,d.A=aj}|)

|D| ,

aholDi azi.intervallum,Dpedig a teljes adathalmaz.

Leállási feltétel:

I χ2elért egy küszöbértéket (alul-, túldiszkretizálás)

I Intervallumok száma egy küszöb alá csökkent

(39)

Klaszter analízis (Cluster analysis)

Tulajdonságok:

AzAattribútum értékeit klaszterekre osztja Figyelembe veszi azAattribútum eloszlását Létezik fentr ˝ol lefelé és lentr ˝ol felfelé típusa is Részletesebben kés ˝obb (Zsolnai Károly)

(40)

Intuitív partícionálás (Discretization by intuitive partitioning)

Tulajdonságok:

AzAattribútum elemeit úgy partícionálja, hogy a határvonalak

„barátiak” legyenek

A 3-4-5 szabályt alkalmazza Felülr ˝ol lefelé típusú

(41)

Intuitív partícionálás

3-4-5 szabály (3-4-5 rule):

Egy intervallumot az alapján oszt fel egyenl ˝o nagyságú részekre, hogy a legnagyobb helyiértéken mekkora az eltérés az intervallum kezd ˝o és végpontja között

Ha 3, 6, 7, vagy 9 az eltérés, akkor 3 részintervallumra osztja az intervallumot

Ha 2, 4 vagy 8 az eltérés, akkor 4 részintervallumra osztja az intervallumot

Ha 1, 5 vagy 10 az eltérés, akkor 5 részintervallumra osztja az intervallumot

(42)

Intuitív partícionálás

Példa

(43)

Intuitív partícionálás

Példa

(44)

Intuitív partícionálás

(45)

Intuitív partícionálás

(46)

Intuitív partícionálás

(47)

Tartalom

1 Bevezetés

2 Attribútumok és hasonlósági mértékek

3 Integráció

4 Transzformáció

5 Tisztítás

6 Diszkretizálás

7 Adatmennyiség csökkentése

(48)

Az adatmennyiség csökkentése

Nagyobb méret ˝u adathalmazon az adatbányászat eredménye pontosabb, ugyanakkor lassabb is.

A feldolgozáshoz az adatokat kezelhet ˝o méret ˝ure kellcsökkenteni.

Feltétel, hogy a csökkentett adathalmaznak ugyan azt az analitikus eredményt kell szolgáltatnia, mint az eredetinek.

(49)

Az adatmennyiség csökkentése

Típusai:

Adatkocka aggregálás

Attribútum részhalmaz kiválasztás Dimenziócsökkentés

Mintaszámcsökkentés

(50)

Adatkocka aggregálás (Data cube aggregation)

(51)

Adatkocka aggregálás (Data cube aggregation)

(52)

Attribútum részhalmaz kiválasztás (Attribute subset selection)

Az eredeti attribútumhalmaz egy részét megtartjuk, a másik részét pedig elvetjük.

A vizsgálat szempontjából irreleváns attribútumok az adatbányász algoritmust lassítják, illetve zavarják.

Tulajdonságok:

Eltávolítja az irreleváns attribútumokat

Cél megtalálni a legsz ˝ukebb részhalmazát az attribútumoknak, amely még azonos eredményhez vezet, mint az eredeti halmaz Segít egyszer ˝usíteni, ezáltal megérteni az algoritmust

mdb attribútum esetén 2mrészhalmaz létezik

Rendszerint heurisztikán alapuló mohó algoritmust használnak

(53)

Attribútum részhalmaz kiválasztás

Típusai:

Iteratívan növekv ˝o halmaz (stepwise forward): Üres halmazból indul. Lépésenként a legjobb attribútumot adja hozzá.

Iteratívan csökken ˝o halmaz (stepwise backward): A teljes halmazból indul. Lépésenként törli a legrosszabb attribútumot.

Döntési fa indukció (decision tree induction): Döntési fát építünk. A fában szerepl ˝o attribútumokat relevánsnak, a többit irrelevánsnak tekintjük.

(54)

Dimenziócsökkentés (Dimensionality reduction)

Adimenziócsökkentéssorán a tárolt adatokat kódoljuk vagy transzformáljuk, hogy tárolásuk hatékonyabb legyen.

Típusai:

Veszteségmentes: az eredeti adathalmaz visszaállítható Veszteséges: az eredeti adathalmaz csak közelíthet ˝o

(55)

F ˝okomponens analízis (Principal components analysis)

Egy lehetséges veszteséges dimenziócsökkent ˝o eljárás a f ˝okomponens analízis.

Lépései:

Tfh. az adatainkmdb. attribútummal vannak leírva, amelyek így m−dimenzisvektoroknak tekinthet ˝oek.

Megkeressük azm−dimenzistérmdb ortogonális egységvektorát.

Ezeket „fontosság” szerint csökken ˝o sorrendbe rendezzük.

Az egységvektorok közülk ≤mdb-ot megtartunk, a többit elvetjük.

Ezzel egy közelítését adtuk meg az adathalmaznak, ugyanis a legkevésbé fontos attribútumokat hagytuk el.

(56)

Mintaszámcsökkentés (Numerosity reduction)

Az eredeti adathalmazt egy kevesebb mintát tartalmazóval helyettesítjük.

Lehetséges típusa a mintavételezés, amely során véletlenszer ˝uen választunk elemeket az eredeti halmazból.

Mintavételezés típusai:

Visszatevéses/visszatevés nélküli véletlen választás (Simple random sample with/without replacement)

Klaszter mintavételezés (Cluster sample) Rétegzett mintavételezés (Stratified sample)

(57)

Mintavételezés

(58)

Mintavételezés

(59)

Mintavételezés

(60)

Mintavételezés

Mennyi mintát vegyünk, hogy torzításmentesen reprezentáljuk az eredeti adathalmazt?

Tfh. az elemek halmazából azx elem el ˝ofordulásának valószín ˝uségepésmmintát vettünk.

A mintavételezés hibázik, amennyibenx relatív gyakorisága eltér p-t ˝ol:

hiba(x) =P(|rel.gyakorisag(x)−p| ≥ε) JelöljeXi azt a vv.-t, amely 1, hax-et választottuk azi-dik húzásnál, különben 0.

JelöljeY azt a vv.-t, amelyY =Pm

i=1Xi. Mivel a húzások egymástól függetlenek, ezértY eloszlásam,pparaméter ˝u binomiális eloszlás.

(61)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε) =

P(|Y −E[Y]| ≥m·ε) =

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε)) Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és

P(Y ≤m·(E[Y]−ε))≤e−2ε2m, amib ˝ol megkapjuk, hogy: hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(62)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε)

=

P(|Y −E[Y]| ≥m·ε) =

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε)) Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és

P(Y ≤m·(E[Y]−ε))≤e−2ε2m, amib ˝ol megkapjuk, hogy: hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(63)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε) = P(|Y −E[Y]| ≥m·ε)

=

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε)) Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és

P(Y ≤m·(E[Y]−ε))≤e−2ε2m, amib ˝ol megkapjuk, hogy: hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(64)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε) =

P(|Y −E[Y]| ≥m·ε) =

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε))

Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és

P(Y ≤m·(E[Y]−ε))≤e−2ε2m, amib ˝ol megkapjuk, hogy: hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(65)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε) =

P(|Y −E[Y]| ≥m·ε) =

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε)) Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és P(Y ≤m·(E[Y]−ε))≤e−2ε2m,

amib ˝ol megkapjuk, hogy: hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(66)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε) =

P(|Y −E[Y]| ≥m·ε) =

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε)) Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és

P(Y ≤m·(E[Y]−ε))≤e−2ε2m, amib ˝ol megkapjuk, hogy:

hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(67)

Mintavételezés

hiba(x) =P

Y m−p

≥ε

=P(|Y −m·p| ≥m·ε) =

P(|Y −E[Y]| ≥m·ε) =

P(Y ≥m·(E[Y] +ε)) +P(Y ≤m·(E[Y]−ε)) Csernov-korlát:

P(Y ≥m·(E[Y] +ε))≤e−2ε2m és

P(Y ≤m·(E[Y]−ε))≤e−2ε2m, amib ˝ol megkapjuk, hogy:

hiba(x) ≤ 2·e−2ε2m

m ≥ 1

2ln 2 hiba(x)

(68)

Mintavételezés

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

a globális extrém szegénységi arány vagy a multidimenzionális szegénységi arány Európára vonatkozó értéke nem hasonlítható össze a szegénység és a

Egyensúlyi proton-neutron arány adott tömegszám esetében: tudni kell, hogy minden tömegszámhoz tartozik egy ilyen arány (min.), ami nukleáris kölcsönhatások

Jévek születési arányát, akkor úgy találjuk, hogy az európai államok közül mindössze a Németbirodalomban s kivált ennek eliparo- sodott tagállamában: Szászországban,

Ehhez még csak annyit fűzünk hozzá, hogy a háború után ez az arány mindig maga- sabb volt, mint Nagy—Magyarországról az, utolsó békeévben számított arány. A

A demográfiai átmenet kezdetén a halálozási arány kezd csökkenni, míg a születési arány ekkor még változatlanul magas.. A halálozások száma tovább csökken, és

Az allélspecifikus oligonukleotid hibridizáció kis skálájú, egy vagy néhány nukleotidot érintő genetikai eltérések detektálására szolgáló molekuláris

Vizsgálatunk a következő hipotéziseken alapult: (1) szélesebb skálájú élőhely- preferenciával jellemezhető fajok feltehetőleg kevésbé érzékenyek klimatikus

rint a halálozási ráta 28,3%-nak adódott súlyos akut pancreatitis esetén szemben a középsúlyos (0,6%), illetve enyhe (0,3%) akut pancreatitises esetekkel - ez