• Nem Talált Eredményt

Adatok torzítása

Előfeldolgozás, távolságfüggvények

3.2. Távolsági függvények

3.3.3. Adatok torzítása

Miért akarnánk torzítani, rontani az adathalmazt? Több okunk is lehet rá.

Például vizsgálni szeretnénk, hogy egy adott módszer mennyire érzékeny a zajra. Az is lehet, hogy egy cég publikussá teszi bizonyos adatait, de először azt kicsit átalakítja/lerontja úgy, hogy az adatelemzés technikailag kivitelezhető legyen, de a konkurrencia ne tudjon hasznos információhoz jutni. A torzítás oka lehet továbbá a magánszféra, a személyes adatok védelme.

Sok esetben egyáltalán nem nyilvánvaló, hogy az adatok torzítása szükséges a személyes információk védelmében. Korolova és társai (2009) beszámolnak arról2, hogy 2006-ban az AOL "anonimizált" módon nyilvánosságra hozta, hogy milyen kifejezésekre keresnek a keresőrendszer felhasználói. Az anonimizáció abban állt, hogy a felhasználóneveket és IP-címeket véletlenszerű azonosítókra

2A konferencián elhangzott előadás: http://videolectures.net/www09_korolova_rsqcp/ , a cikk: http://www2009.org/proceedings/pdf/p171.pdf

cserélték. Elsőre azt gondolnánk, hogy ez jóval több, mint elégséges, az ilyen módon anonimizált adatból érzékeny, személyes információk nem nyerhetők ki, csak általános trendek. Hamar kiderült azonban, hogy a valóság épp ennek el-lenkezője. Az alapvető probléma abból adódik, hogy amikor a felhasználók egy keresőrendszerrel kommunikálnak, implicite feltételezik, hogy mindaz, amit a keresőrendszertől kérdeznek, kettőjük közt, a felhasználó és a keresőrendszer közt fog maradni, harmadik személy nem látja azt. Ezért a felhasználók érzé-keny, személyes informćiókra is keresnek. A felhasználók jelentős része időnként rákeres saját nevére, TAJ-számára (social security number), bankkártyaszá-mára, vélt vagy valós betegségeire, tüneteire, stb. A látszólag anoním módon publikált adatokban egy újságíró sikeresen beazonosított egy 60 év körül höl-gyet, aki sok személyes információt adott ki magáról, például azt, hogy társat keres. Mindez óriási botrányt kavart, két alkalmazottat kirúgtak, jogi eljárás indult, és mondanunk sem kell, hogy az eset sokat ártott az AOL jóhírének.

A kérdés tehát az, hogyan lehet adatokat a személyes információk védelme mellett publikálni? A válasz, természetesen, az adatok torzítása. Amint az előbbi példában is láttuk, az ad hoc ötletek szerint történő torzítások nem-kívánt eredményre vezethetnek. Ezért egy rendkívül izgalmas, új kutatási te-rület a bizonyítható biztonság témaköréhez kapcsolódik: hogyan publikáljunk adatokat oly módon, hogy bizonyítható legyen, hogy azokból nem következtet-hetünk érzékeny információkra? Korolova és szerzőtársai egy olyan módszert javasoltak, mely segítségével keresőrendszereknek feltett keresőkérdéseket lehet aggregált és torzított formában publikálni olyan módon, hogy abból bizonyítha-tóan nem lehet visszakövetkeztetni érzékeny személyes adatokra. Bemutatták azt is, hogy a torzítások és aggregáció ellenére a publikált adatok számos alkal-mazásban jól használhatóak, majdnem ugyanolyan jól, mint az eredeti adatok [Korolova és tsa., 2009].

3.3.4. Diszkretizálás

A diszkretizálás/kvantálás során szám típusú attribútumot kategória típusúvá alakítjuk. Az attribútum értékkészletét intervallumokra/csoportokra osztjuk és minden intervallumhoz egy kategóriát rendelünk. A diszkretizálás során nyilván információt veszítünk viszont segíthetünk az adatbányász algoritmu-son. Számos módszer létezik diszkretizációra.

Kialakíthatunk egyenő szélességű vagy egyenő gyakoriságú intervallumo-kat. Az egyenlő gyakoriságú intervallumoknál minden intervallumba ugyan-annyi adatpont esik.

PKI (Proportional k-Interval Discretization) diszkretizációs módszerként hivatkoznak arra az esetre, amikor egyenlő gyakoriságú intervallumokat alakí-tunk ki és az intervallumok száma az adatpontok négyzetgyökével egyezik meg

[Yang, 2001].

1R módszer

Az 1R tulajdonképpen egy egyszerű osztályozó módszer, amely tartalmaz egy diszkretizációs eljárást. Egy példán kereszül szemléltetjük az algoritmust. A diszkretizálandó attribútum a hőmérsékletet adja meg Fahrenheitban mérve.

A tanítómintában az egyes hőmérsékletekhez a következő osztályértékek tar-toznak (az attribútumértékeket nagyság szerint növekvően sorba kell rendezni):

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

Egy lehetséges csoportosítás szerint induljuk el a legkisebb értékektől és akkor zárjuk le az aktuális intervallumot, ha változik az osztály. A példában nyolc csoportot hoznánk létre:

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

1 0 1 0 1 0 1 0

A határokat a felezőpontokban megválasztva a következő határokat hoznánk létre: 64.5, 66.5, 70.5, 72, 77.5, 80.5, 84. A felosztás persze nem egyértelmű, hiszen ugyanahhoz a ponthoz tartozhatnak különböző osztályok is. Erre példa a 72. Ha van egy osztály, amely a leggyakrabban fordul elő a kérdéses tanító-pontok között, akkor azt az osztályt rendeljük a ponthoz. Ellenkező esetben a leggyakoribb osztályok közül azt, amelyik a legkevesebb csoportot/felosztást adja.

A túl sok kicsi intervallum létrehozásának elkerülése végett célszerű meg-adni egy minimális elemszám küszöböt, legalább ennyi elemet kell tartalmaznia minden csoportnak, kivéve az utolsót. Ha ez a minimum érték három, akkor a következő csoportokat hozzuk létre.

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

1 1 0 v 1

Amikor a szomszédos csoportokban megegyezik a legtöbbször előforduló osz-tályérték, akkor a két csoport közötti határt eltörölhetjük. Ez alapján csak két intervallumot fogunk előállítani, a határvonalat a 77.5 adja. Az utolsó cso-porthoz önkényesen rendeltük a 0-ás osztályértéket. Ha nem így teszünk, akkor egyáltalán nem jelölünk ki határt és minden pont egy intervallumba tartozik.

Vegyük észre, hogy különböző felosztás kaphatunk, attól függően, hogy a sor melyik végétől kezdjük a módszert.

További diszkretizáló eljárások közül megemlítjük az entrópia alapú diszk-retizálást, melynek során olyan úgy keressük meg az intervallumok határait, hogy az intervallumokba tartozó objektumok osztálycímkéinek entrópiáját mi-nimalizáljuk [Tan és tsa., 2005].

3.3.5. Normalizálás

Normalizáláson azt értjük, hogy az attribútum elemeit egy másik intervallum elemeivel helyettesítjük úgy, hogy a helyettesített értékek eloszlása megegyez-zen az eredeti értékek eloszlásával. Tegyük fel, hogy azAattribútum eredetileg aza1, a2, . . . , al értékeket veszi fel. Az aj, j = 1, . . . , l érték normáltját aj-vel jelöljük. Normalizálásra két módszer terjedt el.

Min-max normalizálás: egy lineáris transzformáció:

aj = aj−minA maxA−minA,

ahol minA (maxA) jelöli az A attribútum eredeti értékei közül a legki-sebbet (legnagyobbat). Ezen transzformáció után minden elem a [0,1]

intervallumba fog esni.

Standard normalizálás (z-score normalization):

aj = aj −A¯ σA

,

ahol A¯ az A attribútum átlaga, σA pedig a szórása. A hagyományos szórás

σA =

√∑l

i=1(ai−A)¯ 2 l

helyett az abszolút szórást σA =

l

i=1|ai−A¯| l

is használni szokták. Ennek előnye, hogy csökkenti az átlagtól távol eső pontok (különcök, outlier-ek) hatását.

3.3.6. Mintavételezés

Az adatbányászati algoritmusok általában erőforrás-igényesek. Ha a bemeneti adathalmaznak csak egy kis szeletét dolgozzuk fel, akkor hamarabb kapunk eredményt. A mintavételezés következménye, hogy az így kapott eredmény nem biztos, hogy eléggé pontos. Vannak esetek, amikor a pontos eredmény-nél fontosabb a gyors adatfeldolgozás. Ilyen esetekben nagyon hasznos egy olyan mintaméret meghatározása, aminél az algoritmus gyors, és a hibázás valószínűsége kicsi.

Az adatbányászat és a statisztika által követett megközelítések közti kü-lönbséget a mintavételezés során tetten érhetjük [Tan és tsa., 2005]. A statisz-tikában jellemzően azért mintavételeznek, mert a teljes populációmegfigyelése valamilyen értelemben túl drága vagy más okból nem kivitelezhető, ezért csak egy (remélhetőleg reprezentatív) mintát figyelnek meg (pl. néhány ezer em-ber megkérdezéseként végzett közvéleménykutatásból próbálnak következtetni a teljes lakosság véleményére). Ezzel szemben egy adatbányászati elemzés so-rán rendelkezésünkre állnak a teljes populációt leíró adatok, de az adatbázis óriási mérete miatt kényszerülünk arra, hogy az adatok egy részével dolgoz-zunk csak, mert a tervezett (mélyreható) elemzés elvégzése a teljes adatbázison túlságosan költséges lenne, sok időt venne igénybe.

Az alábbi példában azt látjuk, hogy egy gyógyszer hatékonyságát egy tízezer fős mintán igazolták:

„Az Elevit hatékonyságát igazoló klinikai vizsgálatokat közel tízezer magyar kismama bevonásával végezték. A vizsgálatok során az Elevit szedésével kilencvenkét százalékkal csökkent az idegrendszeri fejlődési rendellenességek előfordulása.” Forrás: Baba Patika X. évfolyam 10. szám, 44. old., 2007. okt.

A mintaméret becslése Csernov-korláttal

A hiba mértékéről csak abban az esetben tudunk bővebben nyilatkozni, ha tudjuk, milyen jellegű összefüggéséket nyerünk ki. Most azt a speciális esetet nézzük meg, amikor elemek előfordulásának valószínűségét akarjuk közelíteni a relatív gyakoriságukkal. Gyakori minták és asszociációs szabályok bányásza-tánál,χ2 alapú függetlenségvizsgálatnál ez az eset áll fenn.

Tegyük fel, hogy elemek halmazából egy tetszőlegesxelem előfordulásának valószínűségepésmmegfigyelés/minta áll rendelkezésünkre. A mintavételezés hibázik, amennyibenx relatív gyakorisága eltér p-től, pontosabban a mintavé-telezés hibája:

hiba(m) = P(rel. gyakoriság(x)−p≥ϵ )

.

JelöljeXi azt a valószínűségi változót, amely 1, hax-et választottuk egy i-edik húzásnál, különben 0, és legyen Y = ∑m

i=1Xi. Mivel a húzások egymástól függetlenek, az Y eloszlása m, p paraméterű binomiális eloszlást követ. Ezt felhasználva:

A második egyenlőségnél kihasználtuk, hogy a binomiális eloszlás várható értéke m·p. Tetszőleges eloszlás esetén a várható értékétől való eltérés való-színűségére több ismert korlát is létezik [Alon and Spencer, 2000]. A Csernov-korlát (amely a Hoeffding Csernov-korlát egy speciális esete) a következőket adja:

P(

Amennyiben a hibakorlátotδ-val jelöljük, akkor igaznak kell lennie, hogy m≥ 1

2 ln2 δ.

Csak a véletlen műve, ha egy elem megfigyelt relatív gyakorisága ponto-san egybeesik az adott elem előfordulásának valószínűségével. Ha azonban a minta elég nagy, akkor nagy valószínűséggel kicsi lesz az eltérés a megfigyelt relatív gyakoriság és az adott elem valószínűsége között. Ha például azt sze-retnénk, hogy az eltérés az elem megfigyelt relatív gyakorisága és valószínűsége között legfeljebb 0.01 legyen, és azt várjuk el, hogy 1 %-nál kisebb legyen an-nak a valószínűsége, hogy az eltérés mégis nagyobb 0.01-nél, akkor a minta mérete legalább 27000 kell legyen. A 3.1 táblázatban adott eltérés- és való-színűségkorlátokhoz tartozó minimális mintaméret található.

További eljárások a mintaméret becslésére

Gyanús, hogy az előző szakasz végén kapott képletben nem szerepel azx elem előfordulásának valószínűsége,p. Ez nem Csernov hibája, hanem a abból adó-dik, hogy túl gyenge korlátot használtunk, olyat, amelyik nem vette figyelembe

ϵ δ m

3.1. táblázat. A minimális minta mérete rögzített ϵ, δ mellett

az X eloszlását, ezért előbbi becslésünk túlságosan pesszimista: igaz ugyan, hogy 27000 méretű minta mellett legfeljebb 1 % lesz a valószínűsége annak, hogy a megfigyelt relatív gyakoriság és a valószínűség közti eltérés nagyobb 0.01-nél, de valójában ennél kisebb minta is elég lenne ugyanekkor pontosság-hoz. A következőkben az előző szakaszban adott becslésnél pontosabb becslést keresünk a mintaméretre.

A Csernov-Hoeffding korlát feltételezi, hogy X binomiális eloszlású es 0,1 értékeket vehet fel:

hiba(m)≤eD(p+ϵ||p)m+eD(pϵ||p)m, ahol Da Kullback-Leibler divergenciafüggvényt jelöli:

D(a||b) =aloga

b + (1−a) log 1−a 1−b.

A Csernov korlátot megkapjuk, ha észrevesszük, hogyD(p+ϵ||p)≥2. Mivel ismerjükY sűrűségfüggvényét, így tetszőleges intervallumra meg tud-juk mondani az előfordulás valószínűségét. Megkísérelhetjük, hogy ez alapján adjunk becslést a minta méretére:

P(Y −m·p≥m·ϵ

Az (m, p) paraméterű binomiális eloszlás eloszlásfüggvényét F(x, m, p)-vel je-lölölve:

P(Y −m·p≥m·ϵ )

= 1 +F(max{⌊mp−mϵ⌋,0}, m, p)

−F(min{⌈mp+mϵ⌉, m} −1, m, p).

3.1. ábra. Különböző pparaméterű binomiális eloszlások

Sajnos a fentiek alapján nem tudunk zárt képletet adni a minta méretének alsó korlátja és azϵ, δ páros közötti kapcsolatra.

Azt gondolhatjuk, hogy minél kisebb a p, annál nagyobb mintát kell venni a pontos becsléshez. Mint látni fogjuk, ez nincs így. Mivel a binomiális eloszlás szimmetrikus, ezért ap≤0.5 esetekre szorítkozunk.

Amennyiben p ϵ, akkor a mp −mϵ 0 és így a hiba 1 −F(⌊mp + mϵ⌋, m, p)-re egyszerüsödik. Ez viszont nullához tart, amennyiben p 0, hiszen

1−F(⌊mp+mϵ⌋, m, p)≤1−F(⌊mϵ⌋, m, p) = P(Y ≥ ⌊mϵ⌋) mp

⌊mϵ⌋. Az utolsó egyenlőtlenségnél a Markov egyenlőtlenséget használtuk fel. A 0 határértéket megkaphattuk volna úgy is, ha a Hoeffding-korlát határértékét számítjuk ki p 0 esetén. Az eredmény ellentmond elvárásainknak, hiszen eszerint kis valószínűségeket kisebb mintával tudunk jól közelíteni.

A következőkben megvizsgáljuk p ϵ esetét. Továbbra is igaz, hogy a p növelésével növekszik a hiba? A válasz igenlő. Ezt az állítást csak szemlél-tetni fogjuk. Vessünk egy pillantást a 3.1 ábrára, amelyen két, különböző p paraméterű binomiális eloszlást láthatunk.

Két dolgot vehetünk észre. A kisebb p-hez tartozó maximális valószínűség nagyobb. A nagy valószínűségek a várható érték kisebb környezetében talál-hatók. Az észrevételeink általánosan is igazak. A második észrevétel például

0

3.2. ábra. A mintavételezés hibája a minta méretének és az előfordulás való-színűségének függvényében

a szórással van kapcsolatban. A kisebb p paraméterű eloszlás szórása kisebb.

Legyen a két paraméterp ésq és legyen p < q <0.5. Ekkor:

mp(1−p) =σp2 < σq2 =mq(1−q) p−p2 < q−q2

0 <(q−p)(1−p−q).

A kisebb valószínűségeknél a várható érték szűkebb környezetében vannak a nagy valószínűségek, ezért a várható érték±ϵm környezetén kívüli pontok va-lószínűséginek összege kisebb, azaz a hiba kisebb!

A következő ábrákon az érvelést támasztjuk alá. A 3.2 ábrán a hibát áb-rázoljuk a minta mérete és a valószínűség függvényében rögzített ϵ mellett.

Látjuk, hogy ha növekszik p (vagy csökken m), akkor csökken a hiba való-színűsége.

A 3.3 ábrán megint a mintavételezés hibáját ábrázoltuk, de most azϵ(0.035) mellett a minta mérete (200) is rögzítve van. Itt még jobban látszik, hogy ahogy csökkenp úgy csökken a hiba is.

A 3.2 táblázatban a binomiális eloszlásból számolt hibát és a Hoeffding-korlátot láthatjuk néhány p valószínűségre. Nyilvánvaló, hogy a Hoeffding-korlát használhatóbb, mint a Csernov-Hoeffding-korlát és jól mutatja, hogy a p csök-kenésével a hiba is csökken, ugyanakkor a tényleges valószínűségek elég távol vannak a felső korláttól.

3.3. ábra. A mintavételezés hibája és a hibára adott felső korlátok az előfordulás valószínűségének függvényében (m = 200,ϵ = 0.035)

p P(Y −m·p≥m·ϵ )

Hoeffding

0.02 0.00078 0.01420

0.04 0.00728 0.08386

0.06 0.02431 0.21903

0.1 0.07547 0.50479

0.2 0.18433 0.92763

0.4 0.27896 1.19989

3.2. táblázat. A mintavételezés hibája és a hibára adott Hoeffding korlát né-hány előfordulás valószínűségrem= 200 és ϵ = 0.035 esetén

Ha ezeknél a paramétereknél a Csernov-korlátot alkalmazzuk, akkor azt kapjuk, hogy a hiba kisebb 1.2-nél. Mivel a hibát egy valószínűséggel definiál-tuk ez elég semmitmondó korlát.

Az elemzés során az intuíciónkkal ellentétes eredményre jutottunk. Ennek okát keresve, idézzük fel a hiba definícióját:

hiba(m) = P(rel. gyakoriság(x)−p≥ϵ )

,

azaz hibát követünk el, ha a relatív gyakoriság és a tényleges valószínűség közötti különbség nagyobb egy adott konstansnál, amelyet ϵ-nal jelöltünk. A relatív gyakoriságnak a valószínűség egy rögzített szélességű környezetében kell lennie.

Szerencsés az, hogy a hibát a relatív gyakoriság és a valószínűség különbsé-gével mérjük? Ez alapján például ugyanakkora hibát követünk el, ha p= 0.8 esetén a relatív gyakoriság 0.81 és hap= 0.01esetén a relatív gyakoriság nulla, azaz az esemény nem következett be egyszer sem. Az embernek az az érzése van, hogy az első esetben kisebbet hibáztunk.

A fenti érvelés alapján célszerűbb a hibát a valószínűség és a relatív gya-koriság hányadosával mérni. Jobban érdekel minket az, hogy hány százalékkal nagyobb vagy kisebb a relatív gyakoriság a valószínűségnél, mint az abszolút különbség. Ha elfogadjuk ezt az érvelést, akkor a hibát a következőképpen definiáljuk:

Felső korlát ismét létezik [Hagerup és Rüb, 1990].

P(

amelyből ϵ =ϵ/(1 +ϵ)helyettesítéssel kapjuk, hogy P(

A relatív hibamérés esetén már igaz, hogy minél kisebb az előfordulás való-színűsége, annál nagyobb lesz a hiba, tehát annál nagyobb mintát kell vennünk.

Vegyük észre, hogy csak nagyvonalakban igaz, hogy kisebb p esetén na-gyobb a hiba. Ennek oka, hogy a binomiális eloszlás diszkrét eloszlás és ezért ahogy csökkentjük ap-t és úgy tolódik a nem hibát jelentő intervallum a nulla pont felé és előfordulhat az, hogy egy újabb pont bekerül az intervallumba. Pél-dául ϵ = 0.035 és m = 1500 esetében a [pm/(1 +ϵ), pm(1 +ϵ)] intervallumba

nem esik egész értékp= 0.007esetében (hiszen a nem hibát jelentő intervallum [10.1,10.9]), mígp= 0.006 esetén igen (ekkor a vizsgált intervallum [8.7,9.3]).

Ha p tart nullához, akkor a hiba egyhez tart. Amennyiben a p kisebb 1/m(1 +ϵ), akkor a(mp

1+ϵ, mp(1 +ϵ))

intervallumba nem eshet egész érték, ezért azX előfordulásától függetlenül a hiba értéke egy lesz.

A Csernov-korlát alkalmazásánál jobb megoldás tehát a hibát a valószínűség és a relatív gyakoriság hányadosából származtatni és a binomiális eloszlást használni. Mivel a végeredmény nem egy zárt képlet lesz, ezért a hiba vagy a szükséges mintaméret kiszámítása bonyolultabb.

A binomiális eloszlás sem a legpontosabb eredményt adja. Az elemzés so-rán ugyanis feltételeztük, hogy az esemény bekövetkezésének valószínűsége is-mert. A valóságban a mintát egy nagy alaphalmazból vesszük. Például a népszavazást megelőző közvélemény-kutatásokban a mintát a felnőtt lakosság-ból vesszük, amely egy véges halmaz. Ha úgy tesszük fel a kérdést, hogy egyM alaphalmazból mekkoram mintát kell vennünk, hogy a mintában az x relatív gyakorisága kis mértékben térjen el az x M-beli relatív gyakoriságától, akkor a binomiális eloszlás helyett hipergeometrikus eloszlást kell használnunk.

Arányos mintavételezés

Az előző fejezetekben azt tételeztük fel, hogy a mintavételezés során véletlen-szerűen választunk elemeket. A gyakorlatban nem kell feltétlenül teljesen vé-letlenszerűen választani az elemeket, fontosabb szempont, hogy a kapott minta reprezentatív legyen. Általánosan azt mondhatjuk, hogy egy minta akkor rep-rezentatív, ha a mintán végzett elemzés ugyanazt az eredményt adja, mintha a teljes adathalmazzal dolgoznánk. Látható, hogy a reprezentativitás, ezen általános meghatározás mellett, alkalmazásfüggő.

Amennyiben az adatbázisbeli objektumok (példányok) osztályokba, előre definiált csoportokba tartoznak, elvárhatjuk, hogy az egyes osztályok ugyan-olyan arányban legyenek képviselve a mintában, mint az eredeti adatbázisban.

Ilyen esetben beszélünk arányos mintavételezésről (stratified sampling).