• Nem Talált Eredményt

A modellek összehasonlíthatósága

5. A modell megalkotása 20

6.1. A modellek összehasonlíthatósága

A modellillesztés problémáját tekintve alapvet˝oen kétféle megközelítés közül választhatunk. Az egyik a bayesi döntéselmélet eredményein alapul, a másik pedig a különféle – gradiens alapú vagy annak ismeretét nem igényl˝o – széls˝oértékke-res˝o eljárásokat használja fel. Célunk mindkét esetben valamilyen jóságfüggvény megadása az egyes modellekre, mely alapján az optimalizáló végrehajthatja a mo-dell paramétereinek hangolását.

6.1.1. Bayesi döntéselmélet

A böngészést tekinthetjük olyan sztochasztikus folyamatnak, amely valamely bels˝o paraméterekt˝ol függ. A függés módját az általunk felállított modell adja.

Ekkor a feladat tulajdonképpen a modell rejtett paramétereinek becslése. A bayesi döntéselmélet és a maximum likelihood becslés pontosan erre ad megoldást.

A formalizált feladat:

LegyenXegy valószín˝uségi változó, melynek értékkészlete az egyes rovatok azonosítói. A modell rejtett paramétereinek vektorát jelöljeΘ. Ezek segítségével a következ˝o valószín˝uségeket definiálhatjuk:

P(X =i|Θ)

legyen az i. rovatba tartozó oldal letöltésének valószín˝usége, ha a modell paramétereiΘ.

P(X1, X2, . . . , Xn|Θ) =P(Xn)

jelölje egynletöltésb˝ol álló session rovatsorozatának eloszlását.

P(X1 =x1, X2 =x2, . . . , Xn =xn|Θ)

legyen ennek megfelel˝oen annak az esélye, hogy Θ paramétereket felté-telezve egy böngészési sorozat n hosszú, és a letöltött oldalak rendre az x1, x2, . . . , xnrovatokból kerülnek ki.

P(Xn1, Xn2, . . . , Xnm|Θ)

pedig jelölje az összes session-t tartalmazó egész weblog rovatainak elosz-lását.

P(Xn1 =x1, Xn2 =x2, . . . , Xnm =xm|Θ)

ekkor egy konkrét weblog valószín˝uségét adja meg, még mindigΘ paramé-tereket feltételezve.

Vegyük észre, hogy elméletileg ezeket a valószín˝uségeket Θ ismeretében ki lehet számolni a rendelkezésre álló modellb˝ol.

A feladat valójában a fordított feltételes valószín˝uségek meghatározása, azaz egy adott weblog esetén a legvalószín˝ubb paraméterek megtalálása. Erre nyújt megoldást a bayesi becslés alkalmazása:

P(Θ|Xn1, Xn2, . . . , Xnm) =cP(Xn1, Xn2, . . . , Xnm|Θ)P(Θ) (3) Itt c konstans, P(Θ) pedig az adott paramétervektor a priori valószín˝usége, amelyet – mivel nem rendelkezünk kitüntetett paraméterekkel vagy valamely egyéb

el˝ozetes feltételezéssel – szintén választhatunk konstansra, így eredményül a maxi-mum likelihood becslést kapjuk.

A cél ennek a valószín˝uségnek a maximalizálása, melyet az egyenlet jobb-oldalának ismeretében megtehetünk. Fontos, hogy nem csak az adott valószín˝u-ség értékét tudjuk meghatározni, hanem a modell ismeretében kiszámíthatjuk a széls˝oérték-keresést segít˝o gradienst is.

Ennek a módszernek egyértelm˝u el˝onye, hogy nemcsak matematikaiag mega-lapozott, hanem a gyakorlatban is sikeresen alkalmazott. Ugyanakkor a szükséges valószín˝uségek valamint a gradiens kiszámolása, bár megtehet˝o, igen hosszadal-mas. Ez önmagában nem jelentene gondot, a probléma az, hogy amennyiben több modell esetén is kíváncsiak vagyunk az optimalizálás eredményeire, akkor min-den esetben újra kell számolni ezeket a képleteket.

6.1.2. Homogenitásvizsgálatχ2-próbával

A modellillesztést végz˝o optimalizáló eljárás bemenet mindenképpen vala-milyen hibaérték vagy jóságfüggvény. (A kett˝o között nincs lényeges különbség, mindenképpen széls˝oértéket kell keresni.)

Célunk tehát valamilyen módon a szimulált weblog jóságának mérése. Egy szimulációt akkor tekintünk jónak, hogyha eléggé hasonlít az általa generált web-log a valós webweb-logra.

Ezt a hasonlóságot többféleképpen mérhetjük. Mivel maga a weblog meglehe-t˝osen nagy méret˝u, ezért érdemes bel˝ole különféle statisztikákat kinyerni, és azok hasonlóságát becsülni. A legtöbb statisztika általában valamilyen hisztogram májában áll rendelkezésünkre. Egy hisztogram felfogható olyan adattárolási for-mának, melynél azt az adatot tartjuk számon, hogy egy adott valószín˝uségi vál-tozó hány esetben vett fel egy bizonyos értéket. (Például hány böngészési sorozat volt adott hoszzúságú.) Ekkor a hisztogram valójában egy adott eloszlású valószí-n˝uségi változó konkrét megnyilvánulásainak mintáit, azaz a mért gyakoriságokat tartalmazza.

Ha így szemlélve a statisztikáinkat páronként össze szeretnénk hasonlítani azokat, akkor eljutunk az ún. homogenitásvizsgálat problémájához, ami a hipoté-zisvizsgálatok egyik fajtája. A homogenitásvizsgálat célja az, hogy megállapítsuk, hogy két valószín˝uségi változó tekinthet˝o-e azonos eloszlásúnak, vagyis, hogy az X1, . . . , Xn és Y1, . . . , Ym azonos és független minták származhatnak-e azonos sokaságból. Itt a két mintahalmaz az eredeti illetve a szimulált weblogból készí-tett statisztikákhoz tartozó valószín˝uségi változók mintái.

A probléma megoldását aχ2-próba szolgáltatja [21]. Ehhez a következ˝o mennyi-séget kell kiszámolni, és összevetni az ún. kritikus értékkel, melyet a bizonyosság elvárt valószín˝usége, valamint a probléma dimenziószáma határoz meg:

χ2 =nm νi ésµivalójában a hisztogramoki. helyen felvett értékei.

A két statisztika hasonlóságának megfelel˝o mértékét nyújta az, ha megvizs-gáljuk, hogy milyen valószín˝uséggel bízhatunk meg abban, hogy a két hisztogram azonos eloszlású valószín˝uségi változókból származik. Ez a valószín˝uség (4) ér-tékéb˝ol aχ2 -eloszlás ismeretében könnyen kiszámolható.

6.1.3. Eloszlások távolsága

Az el˝oz˝o szakaszban az egyes modellek jóságát úgy határoztuk meg, hogyaz eredeti valamint a modell segítségével generált weblogokból kinyert statisztikákat hasonlítottunk össze, mégpedig a statisztikai homogenitásvizsgálat segítségével.

Ez a módszer sajnos nem minden esetben alkalmazható. Ennek oka, hogy a χ2 -próba olyan eloszlásokat illetve méréseket feltételez, melynek eredményeképpen az adott valószín˝uségi változó minden lehetséges értékét felveszi néhányszor (leg-alább ötször). El˝ofordulhat ezért, hogy a homogenitásvizsgálat eredménye nem tükrözi teljesen a valóságot.

Célszer˝u tehát egyéb módszereket is megadni két eloszlás összehasonlítására.

Megfelel˝o módszer lehet egyszer˝uen két hisztogram (vagy eloszlás) távolságának definiálása.

4. Definíció. Legyen X és Y két független valószín˝uségi változó, értékkészletük rendre {x1, . . . , xr}és {y1, . . . , yr}. Ekkor a mintáikból származó hisztogramok értékei:

νi =|{k|Xk =xi}| és µi =|{k|Yk =xi}| ahol(i= 1, . . . , r) Legyen ekkor a két eloszlás távolsága:

d(X, Y) =

r

X

i=1

i−µi)2

Ez alapján már megadható az eredeti és a szimulált weblogból adódó statisz-tikák távolsága. Az optimalizáló feladata az egyes statisztikapárok távolságainak súlyozott összegének minimalizálása.