• Nem Talált Eredményt

Adatok torzítása

In document Kinek szól ez a jegyzet? (Pldal 74-85)

El®feldolgozás, távolságfüggvények

3.2. Távolsági függvények

3.3.3. Adatok torzítása

Miért akarnánk torzítani, rontani az adathalmazt? Több okunk is lehet rá.

Például vizsgálni szeretnénk, hogy egy adott módszer mennyire érzékeny a zajra. Az is lehet, hogy egy cég publikussá teszi bizonyos adatait, de el®ször azt kicsit átalakítja/lerontja úgy, hogy az adatelemzés technikailag kivitelezhet®

legyen, de a konkurrencia ne tudjon hasznos információhoz jutni. A torzítás oka lehet továbbá a magánszféra, a személyes adatok védelme.

Sok esetben egyáltalán nem nyilvánvaló, hogy az adatok torzítása szükséges a személyes információk védelmében. Korolova és társai (2009) beszámolnak arról2, hogy 2006-ban az AOL "anonimizált" módon nyilvánosságra hozta, hogy milyen kifejezésekre keresnek a keres®rendszer felhasználói. Az anonimizáció abban állt, hogy a felhasználóneveket és IP-címeket véletlenszer¶ azonosítókra

2A konferencián elhangzott el®adás: http://videolectures.net/www09_korolova_rsqcp/ , a cikk: http://www2009.org/proceedings/pdf/p171.pdf

cserélték. Els®re azt gondolnánk, hogy ez jóval több, mint elégséges, az ilyen módon anonimizált adatból érzékeny, személyes információk nem nyerhet®k ki, csak általános trendek. Hamar kiderült azonban, hogy a valóság épp ennek el-lenkez®je. Az alapvet® probléma abból adódik, hogy amikor a felhasználók egy keres®rendszerrel kommunikálnak, implicite feltételezik, hogy mindaz, amit a keres®rendszert®l kérdeznek, kett®jük közt, a felhasználó és a keres®rendszer közt fog maradni, harmadik személy nem látja azt. Ezért a felhasználók érzé-keny, személyes inform¢iókra is keresnek. A felhasználók jelent®s része id®nként rákeres saját nevére, TAJ-számára (social security number), bankkártyaszá-mára, vélt vagy valós betegségeire, tüneteire, stb. A látszólag anoním módon publikált adatokban egy újságíró sikeresen beazonosított egy 60 év körül höl-gyet, aki sok személyes információt adott ki magáról, például azt, hogy társat keres. Mindez óriási botrányt kavart, két alkalmazottat kirúgtak, jogi eljárás indult, és mondanunk sem kell, hogy az eset sokat ártott az AOL jóhírének.

A kérdés tehát az, hogyan lehet adatokat a személyes információk védelme mellett publikálni? A válasz, természetesen, az adatok torzítása. Amint az el®bbi példában is láttuk, az ad hoc ötletek szerint történ® torzítások nem-kívánt eredményre vezethetnek. Ezért egy rendkívül izgalmas, új kutatási te-rület a bizonyítható biztonság témaköréhez kapcsolódik: hogyan publikáljunk adatokat oly módon, hogy bizonyítható legyen, hogy azokból nem következtet-hetünk érzékeny információkra? Korolova és szerz®társai egy olyan módszert javasoltak, mely segítségével keres®rendszereknek feltett keres®kérdéseket lehet aggregált és torzított formában publikálni olyan módon, hogy abból bizonyítha-tóan nem lehet visszakövetkeztetni érzékeny személyes adatokra. Bemutatták azt is, hogy a torzítások és aggregáció ellenére a publikált adatok számos alkal-mazásban jól használhatóak, majdnem ugyanolyan jól, mint az eredeti adatok [Korolova és tsa., 2009].

3.3.4. Diszkretizálás

A diszkretizálás/kvantálás során szám típusú attribútumot kategória típusúvá alakítjuk. Az attribútum értékkészletét intervallumokra/csoportokra osztjuk és minden intervallumhoz egy kategóriát rendelünk. A diszkretizálás során nyilván információt veszítünk viszont segíthetünk az adatbányász algoritmu-son. Számos módszer létezik diszkretizációra.

Kialakíthatunk egyen® szélesség¶ vagy egyen® gyakoriságú intervallumo-kat. Az egyenl® gyakoriságú intervallumoknál minden intervallumba ugyan-annyi adatpont esik.

PKI (Proportional k-Interval Discretization) diszkretizációs módszerként hivatkoznak arra az esetre, amikor egyenl® gyakoriságú intervallumokat alakí-tunk ki és az intervallumok száma az adatpontok négyzetgyökével egyezik meg

[Yang, 2001].

1R módszer

Az 1R tulajdonképpen egy egyszer¶ osztályozó módszer, amely tartalmaz egy diszkretizációs eljárást. Egy példán kereszül szemléltetjük az algoritmust. A diszkretizálandó attribútum a h®mérsékletet adja meg Fahrenheitban mérve.

A tanítómintában az egyes h®mérsékletekhez a következ® osztályértékek tar-toznak (az attribútumértékeket nagyság szerint növekv®en sorba kell rendezni):

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

Egy lehetséges csoportosítás szerint induljuk el a legkisebb értékekt®l és akkor zárjuk le az aktuális intervallumot, ha változik az osztály. A példában nyolc csoportot hoznánk létre:

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

1 0 1 0 1 0 1 0

A határokat a felez®pontokban megválasztva a következ® határokat hoznánk létre: 64.5, 66.5, 70.5, 72, 77.5, 80.5, 84. A felosztás persze nem egyértelm¶, hiszen ugyanahhoz a ponthoz tartozhatnak különböz® osztályok is. Erre példa a 72. Ha van egy osztály, amely a leggyakrabban fordul el® a kérdéses tanító-pontok között, akkor azt az osztályt rendeljük a ponthoz. Ellenkez® esetben a leggyakoribb osztályok közül azt, amelyik a legkevesebb csoportot/felosztást adja.

A túl sok kicsi intervallum létrehozásának elkerülése végett célszer¶ meg-adni egy minimális elemszám küszöböt, legalább ennyi elemet kell tartalmaznia minden csoportnak, kivéve az utolsót. Ha ez a minimum érték három, akkor a következ® csoportokat hozzuk létre.

64 65 68 69 70 71 72 72 75 75 80 81 83 85

1 0 1 1 1 0 0 1 1 1 0 1 1 0

1 1 0 v 1

Amikor a szomszédos csoportokban megegyezik a legtöbbször el®forduló osz-tályérték, akkor a két csoport közötti határt eltörölhetjük. Ez alapján csak két intervallumot fogunk el®állítani, a határvonalat a 77.5 adja. Az utolsó cso-porthoz önkényesen rendeltük a 0-ás osztályértéket. Ha nem így teszünk, akkor egyáltalán nem jelölünk ki határt és minden pont egy intervallumba tartozik.

Vegyük észre, hogy különböz® felosztás kaphatunk, attól függ®en, hogy a sor melyik végét®l kezdjük a módszert.

További diszkretizáló eljárások közül megemlítjük az entrópia alapú diszk-retizálást, melynek során olyan úgy keressük meg az intervallumok határait, hogy az intervallumokba tartozó objektumok osztálycímkéinek entrópiáját mi-nimalizáljuk [Tan és tsa., 2005].

3.3.5. Normalizálás

Normalizáláson azt értjük, hogy az attribútum elemeit egy másik intervallum elemeivel helyettesítjük úgy, hogy a helyettesített értékek eloszlása megegyez-zen az eredeti értékek eloszlásával. Tegyük fel, hogy azAattribútum eredetileg aza1, a2, . . . , al értékeket veszi fel. Az aj, j = 1, . . . , l érték normáltját aj-vel jelöljük. Normalizálásra két módszer terjedt el.

Min-max normalizálás: egy lineáris transzformáció:

aj = aj−minA maxA−minA,

ahol minA (maxA) jelöli az A attribútum eredeti értékei közül a legki-sebbet (legnagyobbat). Ezen transzformáció után minden elem a [0,1]

intervallumba fog esni.

Standard normalizálás (z-score normalization):

aj = aj −A¯ σA

,

ahol A¯ az A attribútum átlaga, σA pedig a szórása. A hagyományos szórás

σA =

√∑l

i=1(ai−A)¯ 2 l

helyett az abszolút szórást σA =

l

i=1|ai−A¯| l

is használni szokták. Ennek el®nye, hogy csökkenti az átlagtól távol es®

pontok (különcök, outlier-ek) hatását.

3.3.6. Mintavételezés

Az adatbányászati algoritmusok általában er®forrás-igényesek. Ha a bemeneti adathalmaznak csak egy kis szeletét dolgozzuk fel, akkor hamarabb kapunk eredményt. A mintavételezés következménye, hogy az így kapott eredmény nem biztos, hogy eléggé pontos. Vannak esetek, amikor a pontos eredmény-nél fontosabb a gyors adatfeldolgozás. Ilyen esetekben nagyon hasznos egy olyan mintaméret meghatározása, aminél az algoritmus gyors, és a hibázás valószín¶sége kicsi.

Az adatbányászat és a statisztika által követett megközelítések közti kü-lönbséget a mintavételezés során tetten érhetjük [Tan és tsa., 2005]. A statisz-tikában jellemz®en azért mintavételeznek, mert a teljes populáció meggyelése valamilyen értelemben túl drága vagy más okból nem kivitelezhet®, ezért csak egy (remélhet®leg reprezentatív) mintát gyelnek meg (pl. néhány ezer em-ber megkérdezéseként végzett közvéleménykutatásból próbálnak következtetni a teljes lakosság véleményére). Ezzel szemben egy adatbányászati elemzés so-rán rendelkezésünkre állnak a teljes populációt leíró adatok, de az adatbázis óriási mérete miatt kényszerülünk arra, hogy az adatok egy részével dolgoz-zunk csak, mert a tervezett (mélyreható) elemzés elvégzése a teljes adatbázison túlságosan költséges lenne, sok id®t venne igénybe.

Az alábbi példában azt látjuk, hogy egy gyógyszer hatékonyságát egy tízezer f®s mintán igazolták:

Az Elevit hatékonyságát igazoló klinikai vizsgálatokat közel tízezer magyar kismama bevonásával végezték. A vizsgálatok során az Elevit szedésével kilencvenkét százalékkal csökkent az idegrendszeri fejl®dési rendellenességek el®fordulása. Forrás: Baba Patika X. évfolyam 10. szám, 44. old., 2007. okt.

A mintaméret becslése Csernov-korláttal

A hiba mértékér®l csak abban az esetben tudunk b®vebben nyilatkozni, ha tudjuk, milyen jelleg¶ összefüggéséket nyerünk ki. Most azt a speciális esetet nézzük meg, amikor elemek el®fordulásának valószín¶ségét akarjuk közelíteni a relatív gyakoriságukkal. Gyakori minták és asszociációs szabályok bányásza-tánál,χ2 alapú függetlenségvizsgálatnál ez az eset áll fenn.

Tegyük fel, hogy elemek halmazából egy tetsz®legesxelem el®fordulásának valószín¶ségepésmmeggyelés/minta áll rendelkezésünkre. A mintavételezés hibázik, amennyibenx relatív gyakorisága eltér p-t®l, pontosabban a mintavé-telezés hibája:

hiba(m) = P(rel. gyakoriság(x)−p≥ϵ )

.

JelöljeXi azt a valószín¶ségi változót, amely 1, hax-et választottuk egy i-edik húzásnál, különben 0, és legyen Y = ∑m

i=1Xi. Mivel a húzások egymástól függetlenek, az Y eloszlása m, p paraméter¶ binomiális eloszlást követ. Ezt felhasználva:

A második egyenl®ségnél kihasználtuk, hogy a binomiális eloszlás várható értéke m·p. Tetsz®leges eloszlás esetén a várható értékét®l való eltérés való-szín¶ségére több ismert korlát is létezik [Alon and Spencer, 2000]. A Csernov-korlát (amely a Hoeding Csernov-korlát egy speciális esete) a következ®ket adja:

P(

Amennyiben a hibakorlátotδ-val jelöljük, akkor igaznak kell lennie, hogy m≥ 1

2 ln2 δ.

Csak a véletlen m¶ve, ha egy elem meggyelt relatív gyakorisága ponto-san egybeesik az adott elem el®fordulásának valószín¶ségével. Ha azonban a minta elég nagy, akkor nagy valószín¶séggel kicsi lesz az eltérés a meggyelt relatív gyakoriság és az adott elem valószín¶sége között. Ha például azt sze-retnénk, hogy az eltérés az elem meggyelt relatív gyakorisága és valószín¶sége között legfeljebb 0.01 legyen, és azt várjuk el, hogy 1 %-nál kisebb legyen an-nak a valószín¶sége, hogy az eltérés mégis nagyobb 0.01-nél, akkor a minta mérete legalább 27000 kell legyen. A 3.1 táblázatban adott eltérés- és való-szín¶ségkorlátokhoz tartozó minimális mintaméret található.

További eljárások a mintaméret becslésére

Gyanús, hogy az el®z® szakasz végén kapott képletben nem szerepel azx elem el®fordulásának valószín¶sége,p. Ez nem Csernov hibája, hanem a abból adó-dik, hogy túl gyenge korlátot használtunk, olyat, amelyik nem vette gyelembe

ϵ δ m

3.1. táblázat. A minimális minta mérete rögzített ϵ, δ mellett

az X eloszlását, ezért el®bbi becslésünk túlságosan pesszimista: igaz ugyan, hogy 27000 méret¶ minta mellett legfeljebb 1 % lesz a valószín¶sége annak, hogy a meggyelt relatív gyakoriság és a valószín¶ség közti eltérés nagyobb 0.01-nél, de valójában ennél kisebb minta is elég lenne ugyanekkor pontosság-hoz. A következ®kben az el®z® szakaszban adott becslésnél pontosabb becslést keresünk a mintaméretre.

A Csernov-Hoeding korlát feltételezi, hogy X binomiális eloszlású es 0,1 értékeket vehet fel:

hiba(m)≤eD(p+ϵ||p)m+eD(pϵ||p)m, ahol Da Kullback-Leibler divergenciafüggvényt jelöli:

D(a||b) =aloga

b + (1−a) log 1−a 1−b.

A Csernov korlátot megkapjuk, ha észrevesszük, hogyD(p+ϵ||p)≥2. Mivel ismerjükY s¶r¶ségfüggvényét, így tetsz®leges intervallumra meg tud-juk mondani az el®fordulás valószín¶ségét. Megkísérelhetjük, hogy ez alapján adjunk becslést a minta méretére:

P(Y −m·p≥m·ϵ

Az (m, p) paraméter¶ binomiális eloszlás eloszlásfüggvényét F(x, m, p)-vel je-lölölve:

P(Y −m·p≥m·ϵ )

= 1 +F(max{⌊mp−mϵ⌋,0}, m, p)

−F(min{⌈mp+mϵ⌉, m} −1, m, p).

3.1. ábra. Különböz® pparaméter¶ binomiális eloszlások

Sajnos a fentiek alapján nem tudunk zárt képletet adni a minta méretének alsó korlátja és azϵ, δ páros közötti kapcsolatra.

Azt gondolhatjuk, hogy minél kisebb a p, annál nagyobb mintát kell venni a pontos becsléshez. Mint látni fogjuk, ez nincs így. Mivel a binomiális eloszlás szimmetrikus, ezért ap≤0.5 esetekre szorítkozunk.

Amennyiben p ϵ, akkor a mp −mϵ 0 és így a hiba 1 −F(⌊mp + mϵ⌋, m, p)-re egyszerüsödik. Ez viszont nullához tart, amennyiben p 0, hiszen

1−F(⌊mp+mϵ⌋, m, p)≤1−F(⌊mϵ⌋, m, p) = P(Y ≥ ⌊mϵ⌋) mp

⌊mϵ⌋. Az utolsó egyenl®tlenségnél a Markov egyenl®tlenséget használtuk fel. A 0 határértéket megkaphattuk volna úgy is, ha a Hoeding-korlát határértékét számítjuk ki p 0 esetén. Az eredmény ellentmond elvárásainknak, hiszen eszerint kis valószín¶ségeket kisebb mintával tudunk jól közelíteni.

A következ®kben megvizsgáljuk p ϵ esetét. Továbbra is igaz, hogy a p növelésével növekszik a hiba? A válasz igenl®. Ezt az állítást csak szemlél-tetni fogjuk. Vessünk egy pillantást a 3.1 ábrára, amelyen két, különböz® p paraméter¶ binomiális eloszlást láthatunk.

Két dolgot vehetünk észre. A kisebb p-hez tartozó maximális valószín¶ség nagyobb. A nagy valószín¶ségek a várható érték kisebb környezetében talál-hatók. Az észrevételeink általánosan is igazak. A második észrevétel például

0

3.2. ábra. A mintavételezés hibája a minta méretének és az el®fordulás való-szín¶ségének függvényében

a szórással van kapcsolatban. A kisebb p paraméter¶ eloszlás szórása kisebb.

Legyen a két paraméterp ésq és legyen p < q <0.5. Ekkor:

mp(1−p) =σp2 < σq2 =mq(1−q) p−p2 < q−q2

0 <(q−p)(1−p−q).

A kisebb valószín¶ségeknél a várható érték sz¶kebb környezetében vannak a nagy valószín¶ségek, ezért a várható érték±ϵm környezetén kívüli pontok va-lószín¶séginek összege kisebb, azaz a hiba kisebb!

A következ® ábrákon az érvelést támasztjuk alá. A 3.2 ábrán a hibát áb-rázoljuk a minta mérete és a valószín¶ség függvényében rögzített ϵ mellett.

Látjuk, hogy ha növekszik p (vagy csökken m), akkor csökken a hiba való-szín¶sége.

A 3.3 ábrán megint a mintavételezés hibáját ábrázoltuk, de most azϵ(0.035) mellett a minta mérete (200) is rögzítve van. Itt még jobban látszik, hogy ahogy csökkenp úgy csökken a hiba is.

A 3.2 táblázatban a binomiális eloszlásból számolt hibát és a Hoeding-korlátot láthatjuk néhány p valószín¶ségre. Nyilvánvaló, hogy a Hoeding-korlát használhatóbb, mint a Csernov-Hoeding-korlát és jól mutatja, hogy a p csök-kenésével a hiba is csökken, ugyanakkor a tényleges valószín¶ségek elég távol vannak a fels® korláttól.

3.3. ábra. A mintavételezés hibája és a hibára adott fels® korlátok az el®fordulás valószín¶ségének függvényében (m = 200,ϵ = 0.035)

p P(Y −m·p≥m·ϵ

) Hoeding

0.02 0.00078 0.01420

0.04 0.00728 0.08386

0.06 0.02431 0.21903

0.1 0.07547 0.50479

0.2 0.18433 0.92763

0.4 0.27896 1.19989

3.2. táblázat. A mintavételezés hibája és a hibára adott Hoeding korlát né-hány el®fordulás valószín¶ségrem= 200 és ϵ = 0.035 esetén

Ha ezeknél a paramétereknél a Csernov-korlátot alkalmazzuk, akkor azt kapjuk, hogy a hiba kisebb 1.2-nél. Mivel a hibát egy valószín¶séggel deniál-tuk ez elég semmitmondó korlát.

Az elemzés során az intuíciónkkal ellentétes eredményre jutottunk. Ennek okát keresve, idézzük fel a hiba denícióját:

hiba(m) = P(rel. gyakoriság(x)−p≥ϵ )

,

azaz hibát követünk el, ha a relatív gyakoriság és a tényleges valószín¶ség közötti különbség nagyobb egy adott konstansnál, amelyet ϵ-nal jelöltünk. A relatív gyakoriságnak a valószín¶ség egy rögzített szélesség¶ környezetében kell lennie.

Szerencsés az, hogy a hibát a relatív gyakoriság és a valószín¶ség különbsé-gével mérjük? Ez alapján például ugyanakkora hibát követünk el, ha p= 0.8 esetén a relatív gyakoriság 0.81 és hap= 0.01esetén a relatív gyakoriság nulla, azaz az esemény nem következett be egyszer sem. Az embernek az az érzése van, hogy az els® esetben kisebbet hibáztunk.

A fenti érvelés alapján célszer¶bb a hibát a valószín¶ség és a relatív gya-koriság hányadosával mérni. Jobban érdekel minket az, hogy hány százalékkal nagyobb vagy kisebb a relatív gyakoriság a valószín¶ségnél, mint az abszolút különbség. Ha elfogadjuk ezt az érvelést, akkor a hibát a következ®képpen deniáljuk:

hiba(m) =P(

rel. gyakoriság(x)/p1 +ϵ )

+P(

rel. gyakoriság(x)/p 1 1 +ϵ

Fels® korlát ismét létezik [Hagerup és Rüb, 1990].

P(

amelyb®l ϵ =ϵ/(1 +ϵ)helyettesítéssel kapjuk, hogy P(

A relatív hibamérés esetén már igaz, hogy minél kisebb az el®fordulás való-szín¶sége, annál nagyobb lesz a hiba, tehát annál nagyobb mintát kell vennünk.

Vegyük észre, hogy csak nagyvonalakban igaz, hogy kisebb p esetén na-gyobb a hiba. Ennek oka, hogy a binomiális eloszlás diszkrét eloszlás és ezért ahogy csökkentjük ap-t és úgy tolódik a nem hibát jelent® intervallum a nulla pont felé és el®fordulhat az, hogy egy újabb pont bekerül az intervallumba. Pél-dául ϵ = 0.035 és m = 1500 esetében a [pm/(1 +ϵ), pm(1 +ϵ)] intervallumba

nem esik egész értékp= 0.007esetében (hiszen a nem hibát jelent® intervallum [10.1,10.9]), mígp= 0.006 esetén igen (ekkor a vizsgált intervallum [8.7,9.3]).

Ha p tart nullához, akkor a hiba egyhez tart. Amennyiben a p kisebb 1/m(1 +ϵ), akkor a(mp

1+ϵ, mp(1 +ϵ))

intervallumba nem eshet egész érték, ezért azX el®fordulásától függetlenül a hiba értéke egy lesz.

A Csernov-korlát alkalmazásánál jobb megoldás tehát a hibát a valószín¶ség és a relatív gyakoriság hányadosából származtatni és a binomiális eloszlást használni. Mivel a végeredmény nem egy zárt képlet lesz, ezért a hiba vagy a szükséges mintaméret kiszámítása bonyolultabb.

A binomiális eloszlás sem a legpontosabb eredményt adja. Az elemzés so-rán ugyanis feltételeztük, hogy az esemény bekövetkezésének valószín¶sége is-mert. A valóságban a mintát egy nagy alaphalmazból vesszük. Például a népszavazást megel®z® közvélemény-kutatásokban a mintát a feln®tt lakosság-ból vesszük, amely egy véges halmaz. Ha úgy tesszük fel a kérdést, hogy egyM alaphalmazból mekkoram mintát kell vennünk, hogy a mintában az x relatív gyakorisága kis mértékben térjen el az x M-beli relatív gyakoriságától, akkor a binomiális eloszlás helyett hipergeometrikus eloszlást kell használnunk.

Arányos mintavételezés

Az el®z® fejezetekben azt tételeztük fel, hogy a mintavételezés során véletlen-szer¶en választunk elemeket. A gyakorlatban nem kell feltétlenül teljesen vé-letlenszer¶en választani az elemeket, fontosabb szempont, hogy a kapott minta reprezentatív legyen. Általánosan azt mondhatjuk, hogy egy minta akkor rep-rezentatív, ha a mintán végzett elemzés ugyanazt az eredményt adja, mintha a teljes adathalmazzal dolgoznánk. Látható, hogy a reprezentativitás, ezen általános meghatározás mellett, alkalmazásfügg®.

Amennyiben az adatbázisbeli objektumok (példányok) osztályokba, el®re deniált csoportokba tartoznak, elvárhatjuk, hogy az egyes osztályok ugyan-olyan arányban legyenek képviselve a mintában, mint az eredeti adatbázisban.

Ilyen esetben beszélünk arányos mintavételezésr®l (stratied sampling).

In document Kinek szól ez a jegyzet? (Pldal 74-85)