Nagym´ eret˝ u Adathalmazok Kezel´ ese

(1)

Nagym´ eret˝ u Adathalmazok Kezel´ ese

Id˝osorok Elemz´ese

M´arta Zsolt

BME-SZIT (Hallgat´o)

2011.04.01 ¨^

(2)

Tartalom

1 Bevezet´es

2 Hasonlósági mértékek

3 Indexel´es

(3)

Itt tartunk

1 Bevezet´es

3 Indexel´es

(4)

Bevezet´ es

Id˝osor: adatok id˝o szerint rendezve

Altal´´ aban azonos mintavételi periódussal, de nem feltétlenül!

A világ adatainak jelent˝os része id˝osorként áll el˝o

”Hagyományos” adatbányászati módszerek nem hatékonyak

I Sz´am´ıt a sorrend!

I Rendk´ıv¨ul nagym´eret˝u adathalmazok

I Adatok összefüggenek (függnek az id˝ot˝ol)

I Zaj

(5)

Feladatok

Indexelés (lekérdezés hasonlóság alapján) Klaszterezés

Osztályozás El˝orejelzés

Osszegz´¨ es (tömör´ıtés) Anomália-keresés Szegmentálás

(6)

Itt tartunk

1 Bevezet´es

3 Indexel´es

(7)

T´ avols´ ag meghat´ aroz´ asa

K´et id˝osort akarunk ¨osszehasonl´ıtani

Két egyforma id˝osor ritkán akad, ezért egyez˝oség helyett hasonlóságot használunk

A legt¨obb algoritmus ezen alapszik!

Egyszer˝u módszer: a két (egyforma hosszú) id˝osort n-dimenziós vektornak tekintjük

A távolság az id˝osorok (~x és~y) között az L_p-normával kapható meg:

Lp(~x, ~y) = (

n−1

X

i=0

|x_i −yi|^p)^p¹

Nagyon különbözik az ”emberi hasonlóságtól”, érzékeny

(8)

Az L

p

-norma hib´ ai

A konstans értékben eltér˝o id˝osorokat lehet normalizálni:

xi = xi −µ(~x) σ(~x) ahol µaz átlag,σ a szórás.

De:

Látszólag hasonló, azLp-norma mégis nagy különbséget ad Megoldás: id˝obeli elcsúszások figyelembevétele

(9)

Dynamic Time Warping

El˝oször beszédfelismerésben alkalmazták Dinamikus programozás:

I ~x(x0,x1, . . . ,x_n−1) ´es~y(y0,y1, . . . ,y_m−1) a k´et id˝osor

I Legyen DTW egyn∗m-es mátrix, ekkor DTW[n,m] a távolság

I

DTW[i,j] =d(xi,yj) +min(DTW[i−1,j], DTW[i,j−1], DTW[i−1,j−1])

I Θ(nm) id˝o alatt sz´amolhat´o

(10)

Dynamic Time Warping

Csúszóablakkal(ω) gyors´ıtható Θ(nω)-ra

Minden elemet felhasznál (van amit többször), érzékeny a zajra

(11)

Longest Common Subsequence

Leghosszabb közös részsorozat

Nem kell minden elemet figyelembe venni (zaj), csak a sorrend sz´am´ıt {1,2,3,4,5,1,7}´es{2,5,4,5,3,1,8} LCSS-e a{2,4,5,1}

Dinamikus programoz´as:

I LegyenL[i,j] egy n∗m-es m´atrix, ekkorLCSS(~x, ~y)≡L[n,m]

I

L[i,j] =

1 +L[i−1,j−1] , haxi =yj

max(L[i−1,j],L[i,j−1]) egy´ebk´ent

(12)

Longest Common Subsequence kiterjeszt´ ese

Az elemek pontos egyezése túl szigorú Θ(nm) is még túl sok id˝o ⇒ csúszóablak

L[i,j] =







1 +L[i−1,j −1] , ha|x_i −yj|<

´

es|i−j|< ω max(L[i−1,j],L[i,j −1]) egyébként ahol az elemek max. távolsága, ésω a csúszóablak

Nem kell minden elemét kiszámolni a mátrixnak, cserébe fennáll a hibalehet˝oség

O((n+m)ω) m´ar jobb, f˝oleg kis ω-ra

(13)

Longest Common Subsequence hasonl´ os´ ag

Ezek alapján hasonlóság mértéke meghatározható:

S(, ω, ~x, ~y) = LCSS_,ω(~x, ~y) min(n,m)

Mi van, ha a két id˝osor ”hasonló”, de egy konstans értékben különbözik?

Legyen F azf_c(~x) = (x₀+c, . . . ,xn−1+c) transzformációk (eltolások) halmaza

Ekkor:

S₂(, ω, ~x, ~y) = max

fc∈F S(, ω, ~x, ~y) A t´avols´ag pedig:

D(, ω, ~x, ~y) = 1−S2(, ω, ~x, ~y)

(14)

Longest Common Subsequence hat´ ekony sz´ am´ıt´ asa

S szám´ıtási módját láttuk; ha a csúszóablak nagy, lehet jav´ıtani mintavételezéssel

S₂ szám´ıtása nem triviális:

I Végtelen számú eltolás létezik, de véges számú különböz˝o LCSS-eket adnak

I Vegyük a két-dimenziós s´ıkot, ahol X-tengelyenxi elemeit vesszük fel, azY-tengelyen pedigyi-ket

I Vegy¨unk fel ((xi,yj−),((xi,yj+)) pontokkal hat´arolt szakaszokat, ahol|i−j|< ω

(15)

Longest Common Subsequence hat´ ekony sz´ am´ıt´ asa/2.

O(ω(n+m)) ilyen szakasz van

Ekkor az eltol´asok 1-meredeks´eg˝u egyenesek

~x⁰ ≡fc(~x) az eltol´assal kapott ´uj id˝osor

x_i⁰ p´aros´ıthat´o egyy_j-vel ⇔ azf(x) =x+c egyenes metszi a ((xi,yj −),((xi,yj +)) szakaszt

(16)

Longest Common Subsequence hat´ ekony sz´ am´ıt´ asa/3.

Ha két vonal különböz˝o szakaszokat metsz, lehet más a LCSS De csak végpontoknál történhet ilyen

Mivel O(ω(n+m)) végpont van, ezért minden ilyen lehetséges metszeten végigmenve az optimum kiszámolható O(ω²(n+m)²) id˝oben

(17)

Longest Common Subsequence hat´ ekony sz´ am´ıt´ asa/4.

A négyzetes futási id˝o túl sok, elég lehet csak közel´ıteni

Vegyük a lehetséges különböz˝o LCSS-t adó eltolásokat, és rendezzük c, az eltolás mértéke alapján. Az ´ıgy kapott konstansok:

~c = (c1, . . . ,c2ωn) (Tfh. n>m).

Legyen L_f_c azon szakaszok halmaza, amit metsz az f_c transzformáció EkkorL_f_ci∆L_f_cj ≤ |i−j|, mivelf_c_i ésf_c_i+1 között maximum egy különbség lehet (szakaszvégpont)

(18)

Longest Common Subsequence hat´ ekony sz´ am´ıt´ asa/5.

Ha tekintjük azfcib eltolásokat (i = 1, . . . ,b^2ωn_b c), ezek maximum b találatban különböznek az optimumtól

Tehát az optimálisS2-t közel´ıthetjük

S2(, ω, ~x, ~y)−S˜2(, ω, ~x, ~y)< β mértékben (0< β <1) Rendezés nem szükséges, a transzformációk O(^ωn_bωn) id˝oben megtalálhatók kvantilis-szám´ıtással

Teh´at az algoritmus O(^nω_β²) id˝oben fut, hab=βn

(19)

Altal´ ´ anoss´ agban

A távolság tulajdonképpen azon transzformációk száma, melyekkel az egyik id˝osor a másikba vihet˝o

A távolságfüggvény metrika, ha teljesül:

I Pozitivit´as: δ(x,y)≥0, δ(x,y) = 0⇔x =y

I Szimmetria: δ(x,y) =δ(y,x)

I Háromszög-egyenl˝otlenség: δ(x,y) +δ(y,z)≥δ(x,z) A DTW, LCSS nem metrika!

(20)

Altal´ ´ anoss´ agban/2.

A zajra robusztus távolságfüggvények tipikusan a

háromszög-egyenl˝otlenséget sértik meg, mert csak a leghasonlóbb részeket veszik figyelembe

Altal´´ anosságban elvárjuk, hogy a távolságfüggvényeink kezeljék az alábbiakat:

I Eltér˝o (mintavételezési) sebesség

I Kiugró értékek, nem-fehér zaj

I Elt´er˝o hosszak

I Hat´ekonys´ag

(21)

Itt tartunk

1 Bevezet´es

3 Indexel´es

(22)

Indexel´ es bevezet˝ o

Adott mintához keressük meg a leghasonlóbbat!

Alapesetben végigmegyünk az adatbázison, O(nm) legalább, ami nem elfogadható

Léteznek erre algoritmusok, de az id˝osorok esetében van még pár nehézség:

I Az adatok értékkészlete nem feltétlenül véges vagy diszkrét

I A mintavételezés sebessége nem feltétlenül konstans

I A zaj jelenléte rugalmas hasonlósági függvényt tesz szükségessé

(23)

Indexel´ esi probl´ ema

A probl´ema: adott~q minta,X id˝osorok egy halmaza, δ

távolság-függvény, és egy t˝uréshatár ; keressük a~q-hoz hasonló sorokat:

R ={~x ∈X |δ(~q, ~x)≤}

X lehet egy nagyon hosszú id˝osor is, ekkor a probléma X részsorjaira

´ erv´enyes

Ha S egy indexelési módszer által megtalált halmaz, akkorS−R a téves találatok, m´ıg R−S a téves elutas´ıtások halmaza

(24)

Indexel´ es elv´ ar´ asok

Egy indexelési módszer elvárt tulajdonságai:

Legyen gyorsabb, mint a szekvenciális scan Kevés tárhelyet igényeljen

Változó méret˝u lekérdezésekre m˝uködjön

Ne kelljen újraép´ıteni az indexet beszúráskor, és törléskor

Legyen helyes, azaz ne legyenek téves elutas´ıtások; lehet˝oleg minél kevesebb téves találat legyen

Az index ép´ıtése ne legyen túl lassú

Legyen kompatibilis több távolságfüggvénnyel

(25)

Dimenzi´ ocs¨ okkent´ es

~q n-dimenziós vektor legközelebbi szomszédjait keressük

Térindex algoritmusok léteznek ennek hatékony megoldására (R-fa, kd-fa)

De lényegesen romlik a hatékonyságuk nagy n-re (Dimenzió-átok), valamint csak metrikákkal m˝uködnek!

Próbáljuk meg csökkenteni a dimenziót, vegyünk egy k-dimenziós (k n) lenyomatát~q-nak: ˜q, és azt indexeljük

Akkor tudjuk garantálni a helyességet, ha biztos´ıtjuk, hogy a lenyomattérbeli távolságfüggvényre (δ_k):

δ_k(˜x,˜y)≤δ(~x, ~y) A szekvenciális elérést is seg´ıti

(26)

Lenyomatk´ epz´ es: spektrum

A legtöbb létez˝o id˝osor reprezentálható a ”leger˝osebb”

frekvenciakomponenseivel

Vegyük hát az els˝o k amplitúdó-együtthatót lenyomatnak

Ekkor az Euklideszi-távolság a frekvenciatérben alulbecsüli a valós távolságot

Ha részsorra keresünk, az adatbázis minden poz´ıciójából vegyünk lenyomatot (ω-méret˝ut), és tároljuk pl. R-fában.

Ha |~q|> ω, akkor bontsuk fel a lekérdezést, és az allekérdezések metszete lesz a megoldás

(27)

Lenyomatk´ epz´ es: spektrum/2.

A hátránya, hogy elsim´ıtja a széls˝oségeket

DFT helyett DWT is használható, jobbnak bizonyult k´ısérletekben

(28)

Lenyomatk´ epz´ es: PCA

Piecewise Constant Approximation: bontsukk részre az id˝osort, és ezen szegmensek átlagos értékei legyenek a koordinátái a k-dimenziós vektorunknak

Lehet adapt´ıvan is (nem azonos hossz´u szegmensek)

Nagyon egyszer˝u, és gyors (pl. a DWT-hez képest 10-szer gyorsabb) Akármilyen Lp-normával m˝uködik

(29)

Lenyomatk´ epz´ es: Landmark

Nem konkrét módszer, inkább család

Erdemes csak a meghat´´ aroz´o ”form´akat” kinyerni

Például n-edik derivált zérushelyek, meghatározó fordulópontok Robusztussá tehet˝o eltolásra, egyenletes, s˝ot nem egyenletes nyújtásra is

(30)

Landmark p´ elda

El˝oször is vegyünk az id˝osor ”fontos” fordulópontjait:

x_m fontos minimuma az x_i, . . . ,x_j pontoknak, ha:

I ∀i≤k ≤j, xm≤xk I xi/xm≥R, xj/xm≥R ahol R a tömör´ıtési arány.

Hasonl´oan maximumokra

Lineáris id˝oben, gyorsan számolható

(31)

Landmark p´ elda/2.

A tömör´ıtés után tudjuk a lenyomatot elkész´ıteni: vegyük a fontos fordulópontok közötti szakaszokat (lábak)

A lábakról tároljuk a két széls˝o értéket, indexet, valamint a hosszt és a két széls˝o érték arányát

Ezt megcsináljuk az id˝osorra, egy range tree-ben tároljuk a lábakat hosszuk és meredekségük alapján

Az input sor (~q) legmeredekebb lába alapján keresünk a struktúrában A jelölteket ezután összehasonl´ıtjuk (pl. LCSS)

O(k+logl), aholk a megtalált-,l az összes lábak száma

(32)

Landmark p´ elda/3.

Így kihagyhatunk hasonló találatokat

Vezessük be a kib˝ov´ıtett lábak fogalmát: xi ésxj ∈x1, . . . ,xn b˝ov´ıtett növekv˝o láb, ha

I a_i lok´alis minimum,a_j lok´alis maximum

I ∀m∈[i,j],a_i <a_m<a_j

Tehát amik lábak lennének nagyobb tömör´ıtési arány esetén

(33)

Landmark p´ elda/4.

Indexelj¨uk a kib˝ov´ıtett l´abakat

Így több adatot kell tárolni, de cserébe pontosabban m˝uködik az algoritmus

(34)

Nagym´ eret˝ u Adathalmazok Kezel´ ese