• Nem Talált Eredményt

Az SVD alkalmaz´ asai

In document Aline ´a risalgebraalkalmaz ´a sai (Pldal 118-125)

4. M˝ uszaki ´ es term´ eszettudom´ anyos alkalmaz´ asok 106

4.3. Az SVD alkalmaz´ asai

A szingul´aris ´ert´ek szerinti felbont´as sz´amtalan alkalmaz´asra lelt a statisztik´at´ol kezdve m˝uszaki-fizikai alkalmaz´asokig. Itt az adatokban rejl˝o tartalmi ¨osszef¨ugg´esek meg´ert´es´ e-hez, a l´enyeges inform´aci´ok kiemel´es´ehez, inform´aci´ot¨om¨or´ıt´eshez kapcsol´od´o technik´akat ismertet¨unk, t¨obb¨ukre vizu´alisan is megjelen´ıthet˝o p´eld´akat mutatva.

K´ept¨om¨or´ıt´es B´ar a k´ept¨om¨or´ıt´es leghat´ekonyabb m´odja nem a most ismertetend˝o m´odszer, m´egis ´erdemes a megmutat´asra, mert egyszer˝u m´odon teszi l´athat´ov´a a kis rang´u approxim´aci´o t´etel´et, m´as n´even az Eckart–Young-t´etelt. Eszerint egy tetsz˝oleges r-rang´u A m´atrixnak a legf¨oljebb k-rang´u m´atrixok k¨ozti legjobb Ak approxim´aci´oja f¨ol´ırhat´o

Ak =

k

X

i=1

σiuivTi .

alakban, ahol σi az A m´atrix i-edik szingul´aris ´ert´ek´et, vi, illetve ui a hozz´a tartoz´o jobb ´es bal szingul´aris vektort jel¨oli. A

”legjobb approxim´aci´on” ak´ar a Frobenius-, ak´ar a 2-norm´aban val´o t´avols´ag szerinti legjobb becsl´est ´ertj¨uk. M´eg a t´avols´ag is k¨onnyen becs¨ulhet˝o e k´et norma eset´en a szingul´aris ´ert´ekek seg´ıts´eg´evel, nevezetesen

min

r(B)6kkA−BkF =kA−AkkF = v u u t

r

X

i=k+1

σi2, min

r(B)6kkA−Bk2 =kA−Akk2k+1.

Legyen teh´at Aegyszer˝uen egy sz¨urke´arnyalatos f´enyk´ep pixelm´atrixa. A p´eld´aban sze-repl˝o k´ep a BME egyik ´ep¨ulet´enek 194×259 pixeles k´epe (ld.4.3 ´abra). Az ´abra az A1, A2, A3, A4, A8, A12, A40,A97´es az A194 =A m´atrixok k´epe.

4.3. ´abra. Egy f´enyk´ep 9 k¨ul¨onb¨oz˝o, SVD-vel t¨om¨or´ıtett v´altozata. A figyelembe vett szingul´aris ´ert´ekek sz´ama rendre 1, 2, 3, 4, 8, 12, 40, 97, 194. Az utols´o becsl´es mag´aval az eredeti k´eppel azonos.

Az A els˝o ´es utols´o n´eh´any szingul´aris ´ert´eke: σ1 = 111.644, σ2 = 22.803, σ3 = 19.5021, σ4 = 14.3708,. . . , σ193 = 0.00277355, σ194 = 0.00239575. Az ¨osszes szingul´aris

´

ert´eket mutatja a4.4´abra. L´atjuk, a 194 szingul´aris ´ert´ek ´es vektorp´ar k¨oz¨ul m´ar az els˝o 8 is felismerhet˝o eredm´enyt ad, de az ¨osszes negyed´evel m´ar az eredetit˝ol alig k¨ul¨onb¨oz˝o k´epet kapunk.

M¨og¨ottes tartalom anal´ızise Hasonl´o m´odszereket alkalmaznak nagy mennyis´eg˝u dokumentum tartalmi feldolgoz´as´aban is. Az ´un. m¨og¨ottes tartalom anal´ızise – angolul latent semantic indexing (LSI) vagy latent semantic analysis (LSA) – az SVD seg´ıts´eg´evel lehet˝ov´e teszi, hogy a szavak ´es fogalmak k¨ozt olyan kapcsolatokat fedezz¨unk fel, amelyek-re csak a szavak dokumentumokban val´o el˝ofordul´asait figyelve nem voln´ank k´epesek. A m´odszert megalapoz´o gondolat az, hogy az egy dokumentumban szerepl˝o szavakat ¨ ossze-kapcsolja a dokumentum tartalma. E kapcsolatokat – a szavak m¨og¨ott l´ev˝o tartalmat –

4.4. ´abra. A szingul´aris ´ert´ekek eloszl´asa (az x-tengelyen logaritmikus sk´al´aval) az SVD kiemeli, mint l´enyeges inform´aci´ot. Az ilyen technik´akkal adott tartalm´u doku-mentumok keres´es´eben sokkal jobb eredm´eny ´erhet˝o el, mintha csak kulcsszavak szerint keresn´enk, hisz itt pl. legegyszer˝ubb esetk´ent a szinonim´ak is szoros kapcsolatba ker¨ ul-nek. Ugyanakkor a t¨obbjelent´es˝u szavak alkalmaz´asa sem okoz gondot, mert n´eh´any sz´o megad´as´aval a m¨og¨ottes tartalom a sz´onak csak az adott szavakhoz tartoz´o jelent´ e-se szerinti ´ertelm´et fogja figyelembe venni. A m´odszer ´ıgy dokumentumok tartalm´anak oszt´alyoz´as´ara, indexel´es´ere is alkalmas an´elk¨ul, hogy el˝ozetesen ember alkotta bonyolult tezauruszokat kellene alkalmazni. Az eredeti m´odszert 1989, a t¨obbnyelv˝u ´es nyelvek k¨ozti alkalmaz´as´at 1994 ´ota szabadalom v´edi.

Egy n dokumentumb´ol ´all´o, vagy egy nagym´eret˝u ´esn bekezd´est tartalmaz´o sz¨ oveg-gy˝ujtem´enyt fogunk vizsg´alni. Az ezekben el˝ofordul´o szavak sz´ama legyen m. K´epezz¨uk az A m´atrixot, melynek sorai a szavakat, oszlopai a k¨ul¨onb¨oz˝o dokumentumokat (vagy az egyetlen dokumentum bekezd´eseit) reprezent´alj´ak.

Jel¨olje tij az i-edik sz´o gyakoris´ag´at a j-edik dokumentumban ´es Ti a teljes sz¨ oveg-gy˝ujtem´enyben. Az A m´atrixaij elem´et az i-edik sz´ohoz tartoz´o e k´et gyakoris´ag fogja meghat´arozni. Sok f¨uggv´ennyel folyt k´ıs´erletez´es, tapasztalatok szerint a k¨ovetkez˝o adja a legjobb eredm´enyt:

aij = 1 +

n

X

k=1 tik

Ti logtTik

i

logn

!

log(1 +tij).

E bonyolultnak t˝un˝o formula egy olyan szorzat, melynek els˝o t´enyez˝oje egy csak azi-edik sz´onak az eg´esz gy˝ujtem´enyhez val´o kapcsolat´at´ol f¨ugg˝o glob´alis s´uly, m´ıg a m´asodik csak a lok´alis ´ert´ek – vagyis csak a sz´o adott dokumentumban val´o gyakoris´ag´anak – f¨uggv´enye.

Annak vizsg´alata, hogy mi´ert ´epp e f¨uggv´eny ad j´o eredm´enyt, m´ar az inform´aci´oelm´elet ter¨ulet´ere vezet, ´es az entr´opia fogalm´ahoz kapcsol´odik.

Tekints¨uk az ´ıgy konstru´alt A m´atrix szingul´aris A = UΣVT felbont´as´at ´es az ab-b´ol sz´armaz´oAk =UkΣkVTk k¨ozel´ıt´est. Az Uk, illetve Vk oszlopainak vektorter´eben a szavak, illetve dokumentumok kapcsolat´at a hozz´ajuk tartoz´o vektorok helyzete jellem-zi: nyilv´an a k¨ozelebbi vektorok er˝osebb kapcsolatot jelentenek. Ha ezek ut´an egy ´uj dokumentumot, vagy keres˝oszavak egy halmaz´at akarjuk vizsg´alni, a fenti k´eplet szerint kell s´ulyozott vektort k´epezni bel˝ole. Ennek a Vk oszlopai ´altal kifesz´ıtett vektort´erbe es˝o vet¨ulete ´es a t¨obbi dokumentumhoz tartoz´o vektor vet¨ulete k¨ozti t´avols´ag fogja a hozz´ajuk val´o kapcsolat er˝oss´eg´et jellemezni.

F˝okomponens-anal´ızis A f˝okomponens-anal´ızis Pearson angol statisztikust´ol sz´ ar-maz´o m´odszer. Tulajdonk´eppen megegyezik az el˝oz˝o pontban haszn´alt SVD-alap´u m´ od-szerrel egy alapvet˝o k¨ul¨onbs´eget lesz´am´ıtva. Az el˝oz˝oekben – ´altal´anosan fogalmazva – adatvektorok ter´eben kerest¨unk egy olyan kisebb, k-dimenzi´os alteret, amelyikre a vek-torok t˝ole m´ert t´avols´againak n´egyzet¨osszege a lehet˝o legkisebb. Ez azonban nem mindig a legjobb m´odszer az adatok kapcsolatainak jellemz´es´ere. Ha egy n-dimenzi´os adathal-maz a t´erben egy k-dimenzi´os affin alt´erbe esik, a legk¨ozelebbi alt´erre vet´ıt´es elmossa e tulajdons´ag´at. Nyilv´an jobb lenne, ha nem csak az alterek, hanem az affin alterek k¨oz¨ott is keresn´enk megfelel˝o jel¨oltet. Ez nagyon egyszer˝uen megval´os´ıthat´o, ha indul´askor az adatvektorokat centr´alis helyzetbe hozzuk, azaz az a1, a2,. . . , am vektorok helyett az a1−a,¯ a2−¯a,. . . , am−a¯ vektorokat vizsg´aljuk, ahol

¯ a=

Pm i=1aj

m .

E l´ep´essel visszavezett¨uk a k´erd´est az alterekre vonatkoz´o, m´ar megoldott k´erd´esre (ezt az ´all´ıt´ast itt nem bizony´ıtjuk). Elvben e technika az el˝oz˝oekben le´ırt m¨og¨ottes tartalom ut´ani nyomoz´asban is jobban haszn´alhat´o lenne, ha a m´atrix sorvektorainak centr´alis helyzetbe hoz´as nem j´arna azzal a k¨ovetkezm´ennyel, hogy az eredetileg ritka m´atrix ez´altal s˝ur˝uv´e v´alna, ezzel rem´enytelenn´e t´eve a feladat numerikus megold´as´at.

Gyakori t´arsadalomtudom´anyi alkalmaz´as p´eld´aul egy k´erd˝o´ıves felm´er´es ki´ert´ekel´ese.

m kit¨olt¨ott ´es n k´erd´esb˝ol ´all´o k´erd˝o´ıv adatai egy m×n-es m´atrixba ker¨ulnek, oszlop-vektorair´ol m´ar felt´etelezz¨uk, hogy koordin´at´aik ¨osszege 0. Ekkor a k´erd˝o´ıvvektorok – melyek most a m´atrix sorvektorai ´es melyeket tekinthet¨unk egy val´osz´ın˝us´egi vektorv´ al-toz´o kimeneteleinek – 0 v´arhat´o ´ert´ek˝uek, ´es tapasztalati sz´or´asn´egyzet¨ukPm

i=1kaik2-tel ar´anyos. A felt´etelez´es az, hogy a

”m¨og¨ottes l´enyeges” tartalom legfontosabb ¨osszetev˝oj´et az a vektor jellemzi, melynek ir´any´aban a legnagyobb a sz´or´as, hisz ezen ir´any ment´en k¨ul¨onb¨oztethet˝ok meg legjobban a k´erd˝o´ıvek, s vele a v´alaszol´ok. Ezt az ir´anyt nevezz¨uk els˝o f˝okomponensnek. Ha ez valamelyik tengelyir´anyba esik, akkor csak azt tudtuk meg, hogy az ehhez tartoz´o koordin´ata, illetve az ehhez tartoz´o k´erd´es a legfontosabb, a k´ erde-z˝ok line´aris sorbarendez´es´ehez el´eg ezt a koordin´at´at (k´erd´est) figyelembe venni. Egy´eb

esetekben viszont egy olyan ¨osszef¨ugg´esre jutottunk, mely csak a k´erd´esek egy¨uttes´eb˝ol olvashat´o ki. Tudjuk, hogy ez az ir´any ´epp az els˝o jobb szingul´aris vektor, ´es a sz´or´as a legnagyobb szingul´aris ´ert´ekkel lesz ar´anyos, nevezetesen

σ1 =kAv1k, ahol

v1 = arg max{ kAvk | kvk= 1}.

Ezut´an e f˝okomponens ir´any´ara mer˝oleges (vele nem korrel´al´o) ir´anyok k¨ozt megism´ etel-j¨uk a f˝okomponens keres´es´et, majd ezt ciklikusan ism´etelve a szingul´aris ´ert´ekek cs¨okken˝o sorozat´ahoz, ´es a hozz´ajuk tartoz´o jobb szingul´aris vektorok sorozat´ahoz jutunk:

σi =kAvik, ahol

vi = arg max{ kAvk | kvk= 1,v⊥span(v1,v2, . . . ,vi−1)}.

E m´odszer szeml´eltet´es´ere vizu´alisan megjelen´ıthet˝o adathalmazt, nevezetesen arc-k´epeket v´alasztunk. A f˝okomponens-anal´ızis arck´epekre val´o alkalmaz´as´aban keletkez˝o jobb szingul´aris vektoroknak az arcfelismer´es friss m˝uszaki tudom´any´aban k¨ul¨on nev¨uk van: ”saj´atarcok” (eigenfaces). Mi most kev´es adattal, minim´alis eszk¨oz¨okkel dolgozunk.

14 darab 92×112 pixeles sz¨urke´arnyalatos k´ep m´atrix´ab´ol egy 14×10304-es m´atrixot k´epez¨unk a k´epek vektork´ent val´o kezel´es´evel. A k´epek vektoriz´al´asa egyszer˝uen az ada-tok sorfolytonos egybeolvas´as´at jelenti (10304 = 92×112). E m´atrix minden sor´ab´ol kivonjuk a sorvektorok ¯a´atlag´at, ´es az ´ıgy kapott Am´atrix legnagyobb 7 szingul´aris ´ er-t´ekhez tartoz´o szingul´aris vektorok ´altal kifesz´ıtett alt´erre vet´ıtj¨ukA sorvektorait, majd visszatoljuk ¯a-sal. A 4.5 k´epen l´athat´o az eredm´eny: az R10304 t´er 14 centraliz´alt k´ ep-vektora ´altal kifesz´ıtett 14-dimenzi´os alter´ehez megkeress¨uk azt a 7-dimenzi´osat, melyt˝ol val´o t´avols´agn´egyzeteinek ¨osszege minim´alis. ´Igy az erre az alt´erre es˝o vet¨uletei a cent-raliz´alt k´epvektoroknak ˝orzik a legjobban a k´epekben l´ev˝o eredeti inform´aci´ot (az egy´eb 7-dimenzi´os alterek k¨oz¨ul). A f˝okomponensek a k´ep als´o sor´aban l´athat´ok. L´enyegesen nagyobb adathalmaz eset´en a f˝okomponensek t¨obbet mondanak az arcban rejtett infor-m´aci´o l´enyeg´er˝ol. K´ıs´erletk´eppen egy 15-dik k´ep – a 14 k´epb˝ol sz´amolt ¯a-sal val´o eltoltj´at – r´avet´ıtett¨uk az alt´erre, majd a vet¨uletet vissza, hogy l´assuk, mennyire van e vet¨ulet k¨ozel az eredetihez.3

Az arcfelismer´es m´ara igen sz´eles k¨orben alkalmazott m˝uszaki tudom´anny´a v´alt, mely-nek matematikai h´atter´eb˝ol csak egy apr´o r´eszletet mutat a fenti leegyszer˝us´ıtett p´elda.

3A felhaszn´alt k´epek az Olivetti Research Laboratoryban k´esz¨ultek 1992 ´es 94 k¨oz¨ott, ´es szaba-don let¨olthet˝ok a http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html oldal-r´ol. Felhaszn´al´asuk kiz´ar´olagos c´elja egyszer˝u line´aris algebrai ismeretek szeml´eltet´ese, nem az arcok eltorz´ıt´asa.

4.5. ´abra. A k´et egym´as mellett l´ev˝o t´abla bal els˝o 14 k´epe 14 arck´ep. A mellette l´ev˝o 14 k´ep az el˝obbiek pixelm´atrixaib´ol alkotott vektorokhoz legk¨ozelebb fekv˝o 7-dimenzi´os affin alt´erre es˝o mer˝oleges vet¨uleteikb˝ol sz´armazik. A 15-dik k´ep p´arja egy – az el˝oz˝oekt˝ol k¨ul¨onb¨oz˝o – ´uj k´epnek a 14-dimenzi´os t´erre val´o mer˝oleges vet¨ulet´enek megjelen´ıt´ese.

Az als´o sorban a 7-dimenzi´os affin alt´erhez tartoz´o alteret kifesz´ıt˝o 7 szingul´aris vektor

´

abr´aja. A sz´ınek negat´ıvba j´atsz´o megjelen´es´enek oka az, hogy ezek centraliz´alt vektorok, nem az affin alt´erb˝ol val´ok.

T´ argymutat´ o

szimplex t´abl´aban 58 b´azisv´altoz´o 56

BCD-k´od 76 bitvektor 76 blokk-k´od 85 c´elf¨uggv´eny 39 deriv´altlek´epez´es 5 differenci´alhat´os´ag 4 du´al feladat 68 du´alis k´od 90 ellen˝orz˝o m´atrix 90 ellen˝orz˝o ¨osszeg 81 ellen˝orz˝o szegmens 89 Fibonacci-sorozat 22 formulam´atrix 107 Galileo 110

gener´atorm´atrix 87 standard alak 89

GNSS, Global Navigation Satellite Systems 109

GPS, Global Positioning System 110 gradiens 7

Hadamard-m´atrix 99 Hamming-k´od 95

b˝ov´ıtett bin´aris 96 Hamming-s´uly 87

Hamming-t´avols´ag 80, 85 hibavektor 93

minim´alis s´ulya 87 k´od´ab´ec´e 85

lehets´eges megold´asok 39 line´aris k´od 86

LP feladat 39 Markov-l´anc 30

peri´odusa 35

stacion´arius eloszl´as 36 Markov l´anc

aperiodikus 35 m´atrix

monomi´alis 90 szt¨ochiometriai 107 MDS-k´od 86

null¨osszeg˝u k´od 81

¨ondu´alis 92

¨onortogon´alis 92 parit´asbit 81

parit´asellen˝orz˝o k´od 81 parit´asm´atrix 90 perfekt k´od 86 poli´eder 40

poli´eder cs´ucspontja 41 poli´eder hat´ara 41 poliherikus k´up 63 prim´al feladat 68 reakci´oegyenlet 106 Reed–Muller-k´od 97 stacion´arius eloszl´as 36 standard alak´u 54

standard elrendez´esi t´abl´azat 93 szem´elyi sz´am 76,81

szimplex algoritmus 52 szimplex k´od 95

szimplex m´odszer 52 szimplex t´abla 52, 58 szindr´oma 93

szisztematikus 89

szt¨ochiometriai m´atrix 107 titokmegoszt´as 101

(t, n)-k¨usz¨ob s´ema 101 ide´alis 103

perfekt 101 uzenetszegmens¨ 89 v´eges k´up 63 visszat´er˝o 35

In document Aline ´a risalgebraalkalmaz ´a sai (Pldal 118-125)