• Nem Talált Eredményt

Szavak rekonstrukci´oja - klasszikus eset

3. Szavak rekonstrukci´ oja - DNS k´ odok 33

3.2. Szavak rekonstrukci´oja - klasszikus eset

A Sziklai P´eterrel ´es David Torney-val k¨oz¨os [20] cikk a v´eges Γ ´ab´ec´eb˝ol vett szavak alkotta v´eges posetekkel foglalkozik: legyen P(n) az ´ab´ec´e bet˝uib˝ol vett ¨osszes, legfeljebbn hossz´u sorozat r´eszben rendezett halmaza. A kapott posetben a szavak hossza egy alkalmas rang f¨uggv´enyt hat´aroz meg, ez´ert a

P(n) poset szintezett. Jel¨oljePi(n) az i-edik szintet, amely az ¨osszesi hossz´u r´eszsorozatb´ol ´all (0 ≤i≤n).

M´ıg a v´egtelen v´altozat napjainkban rengeteget vizsg´alt objektum, ad-dig a v´eges v´altozat szinte semmilyen figyelmet sem kapott. Jelent˝os´eg´et t¨obbek k¨oz¨ott az adja, hogy a DNS vizsg´alatokban haszn´alt t¨orl´es - besz´ur´as (delition-insertion) metrik´an (avagy Levenshtein t´avols´agon) alapul´o hiba-jav´ıt´o k´odok tanulm´anyoz´as´anak term´eszetes k¨ozege lehet. Ezen szavak kom-binat´orik´aj´anak legfontosabb kutat´oja maga Vladimir Levenshtein (p´eld´aul [Lev92, Lev01a, Lev01b]). Egy m´asik fontos, korai eredm´eny P.J. Chase nev´ehez f˝uz˝odik: ˝o tanulm´anyozta egy sorozat r´eszsorozatai sz´am´anak eloszl´a-s´at. LegyenSegy adott sorozat, jel¨oljeSiazihossz´u r´eszsorozatok halmaz´at, m´eg |Si| azok sz´am´at.

T´etel. [P.J. Chase ([Cha76])] Az |Si|, (0 i n) sz´amok egyszerrre ´erik el maximumukat, m´eghozz´a pontosan akkor, amikor az S sz´o az ab´ec´e egy ism´etl´eses permut´aci´oja, azaz egy (w1. . . wk). . .(w1. . . wk)w1. . . w` form´aj´u sorozat, ahol ` n (mod k) ´es w1. . . wk a Γ egy r¨ogzitett permut´aci´oja — vagy pedig az el˝oz˝o sorozat ford´ıtottja.

A tov´abbiakban jel¨olje Bk,n a Chase T´etelben le´ırt, maximalit´ast biztos´ıt´o elem ´altal gener´alt P(n)-beli ide´alt, mint posetet.

3.2.1. Automorfizmusok

ABk,n posetet G. Burosch ´es t´arsai sokat vizsg´alt´ak ([BurFra90, BurGro96]).

Az els˝o cikk f˝o eredm´enyek´ent meghat´arozt´ak a k = 2 esetre kapott poset automorfizmus csoportj´at, amelyr˝ol kider¨ult, hogy az felt˝un˝oen ”szeg´enyes”.

A szerz˝ok a Bk,n posetet el˝osz¨or egy megfelel˝oen v´alasztott Boole h´al´oba

´agyazt´ak be ´es annak tulajdons´agait haszn´alt´ak fel a bizony´ıt´as sor´an. A m´asodik cikkben, hasonl´o eszk¨oz¨okkel, a k´erd´est az ´altal´anos ´ab´ec´e eset´ere oldott´ak meg.

A [20] cikkben kidolgozott m´odszer egyszer˝u bizony´ıt´ast szolg´altat Bu-rosch´ek els˝o cikk´enek eredm´enyeire, mik¨ozben le´ırja aP(n) poset automorfiz-mus csoportj´at is.

Jel¨olje Aut(P) a P poset automorfizmus csoportj´at. Nyilv´anval´o, hogy a Γ ab´ec´e b´armely π permut´aci´oja induk´alja aP(n) egy σπ automorfizmus´at a σπ(w1w2. . . wt) = π(w1)π(w2). . . π(wt) jel¨ol´es mellett. Jel¨olje Symk az Aut(P(n)) csoportσπ automorfizmusok ´altal gener´alt r´eszcsoportj´at. Legyen tov´abb´a ρ azt a m˝uveletet, amely b´armely sorozatban megford´ıtja az elemek

35

sorrendj´et (p´eld´aul ρ(abcd) = dcba). Ekkor ρ maga is automorfizmus, ´es ρ−1 = ρ. Jel¨olje Z2 a Aut(P(n)) csoport ρ ´altal gener´alt r´eszcsoportj´at. Azt is k¨onny˝u l´atni, hogy ρb´armely m´asik automorfizmussal is felcser´elhet˝o.

Az n= 2 esetben b´armely (rendezetlen) {a, b} ⊂Γ p´arra legyen%ab az a lek´epez´es P(2)-n amely felcser´eli ennek (´es csak ennek) a k´et bet˝unek a sor-rendj´et, valah´anyszor egy¨utt jelentkeznek egy 2-sorozatban. Ilyen lek´epez´es-b˝ol ´eppen ¡k

2

¢ van, b´armely k¨ul¨onb¨oz˝o (rendezetlen) {a, b} ´es {c, d} p´arra ezek az automorfizmusok k¨ul¨onb¨oznek ´es felcser´elhet˝ok (hiszen m´as p´arokon hatnak). Ez´ert ezek a%lek´epez´esek egy¨utt az identit´assal az Aut(P2) csoport egy r´eszcsoportj´at k´epezik, amelyet Z(k2)

2 -vel jel¨ol¨unk. A r´esz f˝oeredm´eny´et ezek ut´an ´ugy lehet megfogalmazni, hogy a P(n) csoport b´armely automor-fizmus´at aSymk r´eszcsoport ´es vagy a Z2 vagy a Z(k2)

2 r´eszcsoportok egy-egy elem´enek szorzatak´ent lehet el˝o´all´ıtani.

3.1. T´etel. (i) Ha n >2, akkor Aut(P(n)) =Symk⊗Z2; (ii) ha n= 2, akkor Aut(P(n)) = Symk⊗Z(k2)

2 .

Burosch els˝o (bin´aris) cikk´enek eredm´enyei most k¨onnyen kij¨onnek a 3.1.

T´etel bizony´ıt´as´ara haszn´alt gondolatmenetb˝ol. A bizony´ıt´as tov´abbfejleszt-het˝o az ´altal´anos ´ab´ec´e eset´ere is: Ligeti P´eter ´es Sziklai P´eter ([LigSzi05]) ilyen m´odon ´uj bizony´ıt´ast tal´alt a [BurGro96] cikk f˝o t´etelre is.

3.2.2. Extrem´alis kombinatorikai tulajdons´agok

Most r´at´er¨unk a P(n) poset legalapvet˝obb kombinatorikai tulajdons´againak a vizsg´alat´ara. Eml´ekeztet˝o¨ul: poset¨unk szintezett, ´es egy sorozat rangja

´eppen a hossza, ´ıgy rang(P(n)) = n. Legyen P egy tetsz˝oleges szintezett poset 0 minim´alis ranggal, ´es jel¨olje A az `-rang´u elemek egy r´eszhalmaz´at.

Ekkor ∆iA jel¨oli (0 i < ` eset´en) az i-edik ´arny´ek´at az A-nak, m´ıg iA jel¨oli (` < irang(P) eset´en) a i-edikfels˝o ´arny´ek´at.

El˝osz¨or is vegy¨uk ´eszre, hogy a P(n) poset adott rang´u elemeinek adott (i-edik) ´arny´ekai elt´er˝o sz´amoss´ag´uak lehetnek. Ugyanakkor, mint kider¨ult, b´armely k´et azonos hossz´us´ag´u sorozat fels˝oj-´arny´eka azonos elemsz´am´u.

3.2. T´etel. Legyen ξ egy r¨ogz´ıtett sorozat ´es legyen j olyan eg´esz, hogy

|ξ| ≤ j n. Ekkor azon j-sorozatok sz´ama, amelyek ξ-t r´eszsorozatk´ent

tartalmazz´ak a k¨ovetkez˝o:

N(j, ξ;k) =

j−|ξ|X

i=0

µj i

(k1)i.

Ezzel a t´etellel egy´ebk´ent ´uj bizony´ıt´ast adtunk Levenshtein egy ismert ered-m´eny´ere is ([Lev92]).

Mint tudjuk, b´armely posetben a BLYM egyenl˝otlens´egb˝ol k¨ovetkezik a Sper-ner t´etel. A P(n) r´eszbenrendezett halmaz pedig kiel´eg´ıti a BLYM tulaj-dons´agot, valamint a BLYM k¨onny˝u k¨ovetkezm´enye a normaliz´alt p´aros´ıt´asi tulajdons´agnak (normalized matching property):

3.3. T´etel. A normaliz´alt matching tulajdons´ag teljes¨ul a P(n) posetre, mert azitetsz˝oleges eg´esz ´ert´ek´ere ´es azA⊆ Pi(n)r´eszhalmaz valamennyi v´alaszt´a-s´ara:

k|A| ≤ |∇A|.

Az ´all´ıt´as egy´ebk´ent a 3.2. T´etel k¨ovetkezm´enye.

3.2.3. Szavak rekonstrukci´oja line´aris id˝oben

Ebben a r´eszben az Andreas Dressel k¨oz¨os [23] cikk alapj´an a v´eges Γ ´ab´ec´e feletti n-hossz´u szavak r´eszszavaib´ol line´aris id˝oben t¨ort´en˝o rekonstrukci´oj´at t´argyalom.

Simon Imre 1975-ben v´alaszolta meg az ´altala ´es M. Sch¨utzenberger ´altal m´eg 1966 k¨or¨ul feltett k´erd´est: legyen Γ egy v´eges ´ab´ec´e ´es legyen w egy n-bet˝ut tartalmaz´o sz´o Γ felett. Tekints¨uk a sz´o ¨osszes, legfeljebbmhossz´us´ag´u r´eszszav´anakS(w, m) halmaz´at (teh´at a r´eszszavak frekvenci´aja nem ismert).

A k´erd´es az, hogy azS(w, m) mikor hat´arozza meg egy´ertelm˝uen aw-t, azaz milyen m-k mellett lehets´eges, hogy k´et azonos hossz´u, de elt´er˝o w ´es w0 szavakra megegyeznek a megfelel˝o r´eszszavakb´ol ´all´o halmazok.

Tartalmazzon az ´ab´ec´e legal´abb k´et bet˝ut ´es legyen w = ababa...ba m´ıg w0 =babab...ab. Ha mindk´et sz´o 2m+ 1 hossz´u, akkor k¨onnyen l´athat´o, hogy k¨ozt¨uk nem tesznek k¨ul¨onbs´eget a legfeljebb m hossz´u r´eszszavak halamzai.

Ugyanakkor teljes¨ul:

T´etel. [Simon (1975)] A v´eges Γ ´ab´ec´e felett minden 2m + 1 hossz´u sz´ot egy´ertelm˝uen meghat´aroz legfeljebb m+ 1 hossz´u r´eszszavainak halmaza.

37

A t´etel legszebb bizony´ıt´asa Jacques Sakarovitch ´es Simon Imre nev´ehez f˝uz˝odik ´es a [Lot97] k¨onyv 119-120. oldal´an tal´alhat´o. Itt ´erdemes meg-jegyezni, ha a r´eszszavak halmaz´an k´ıv¨ul minden egyes r´eszsz´o multiplicit´as´at is ismerj¨uk, akkor minden sz´ot egy´ertelm˝uen meghat´aroz a legfeljebb7

n hossz´u r´eszszavainak kollekci´oja.

Az ismert megk¨ozel´ıt´esek csup´an egzisztencia bizony´ıt´ast adtak a Simon t´etel´ere, azonban nem vizsg´alt´ak a rekonstrukci´ot t´enylegesen v´egrehajt´o al-goritmust. Ezt a munk´at a [23] cikkben v´egeztem el, Andreas Dress-szel k¨oz¨osen. Az eredm´eny kimond´as´ahoz sz¨uks´eg van n´eh´any tov´abbi jel¨ol´esre.

Jel¨oljekwka (r´esz)sz´o hossz´at, kwkapedig a sz´oban szerepl˝oa bet˝uk sz´ama, v´eg¨ul legyen¡w

m

¢a wsz´o ¨osszes m-hossz´u r´eszszav´anak a halmaza. A k¨ovet-kez˝o t´ıpus´u k´erd´eseket tesz¨uk fel: mi a maximuma a legal´abbk darab abet˝ut tartalmaz´o m-hossz´u r´esz-szavakban szerepl˝o legels˝oa bet˝u poz´ıci´oj´anak. a minimuma a legal´abb k darab a bet˝ut tartalmaz´o m-hossz´u r´eszsza-vakban szerepl˝o legutols´o a bet˝u poz´ıci´oj´anak.

Ezut´an a cikk f˝o eredm´enye a k¨ovetkez˝o:

3.4. T´etel ([23]). Adott a legal´abb k´etelem˝u Γ ´ab´ec´e, tov´abb´a az n ´es m term´eszetes sz´amok, ahol 2m > n. Ekkor b´armely w Γ[n] sz´o rekon-stru´alhat´o |Γ| darab (i)-es t´ıp´us´u, tov´abb´a bn(1− |Γ|1 )c darab (ii)-es ´es ugya-nannyi (iii)-as t´ıp´us´u k´erd´essel.