Parikh függvények - Környezetfüggetlen nyelvek 32

I. NYELVEK 7

3. Környezetfüggetlen nyelvek 32

3.10. Parikh függvények

Az alfejezetben a környezetfüggetlen nyelveket a bennük szereplő különböző betűk számának eloszlása szerint jellemezzük. Megmutatjuk, hogy minden környezetfüggetlen nyelvhez van olyan reguláris nyelv, amelyben a különböző betűk számának eloszlása ugyanaz.

A vizsgálatainkban alapvető szerepet játszanak az olyan n dimenziós vek-torok, amelyek komponensei nemnegatív egész számok. Az alfejezetben vekto-rokon mindig ilyen vektorokat fogunk érteni. Jelölje ezeknek a vektoroknak a halmazát N⁽ⁿ⁾.

AzM ⊆N⁽ⁿ⁾ halmaztlineárisnak nevezzük, ha van olyank ∈N és vannak olyan t₀,t₁, . . . ,t_k vektorok, hogy

M ={t0+

i=1

niti; n1, . . . , nk ∈N} (3.8)

AzM halmaztféllineárisnak mondjuk, ha véges sok lineáris halmaz egyesítése.

Legyen U = {u₁, . . . , u_n} tetszőleges ábécé. Jelölje |p|_u_i a p ∈ U^∗ szóban az u_i ∈ U betű előfordulásainak számát. A ϕ : U^∗ → N⁽ⁿ⁾ leképezést Parikh függvénynek nevezzük, ha mindenp∈U^∗ szóra

ϕ(p) = (|p|_u₁, . . . ,|p|_u_n), (3.9) teljesül. Legyen továbbá tetszőleges L⊆U^∗ nyelv esetén

ϕ(L) = {ϕ(p); p∈L} (3.10)

3.25. Példa. Az

M ={(r, s, t); r =s vagy s=t, (r, s, t)∈N⁽3)}

halmaz féllineáris, mert egyesítése annak a két lineáris halmaznak, amelyekre a (3.8) definíció jelölései szerint t₀,t₁,t₂

(0,0,0), (1,1,0), (0,0,1) ill. (0,0,0), (1,0,0), (0,1,1).

Könnyen látható, hogy M = ϕ(L), ahol például L az U = {u, v, w} ábécé feletti (uv)^∗w^∗+u^∗(vw)^∗ reguláris kifejezéssel megadott nyelv. De M =ϕ(L₁+ L₂) is, ahol

L₁ ={uⁱvⁱw^j; i, j ∈N} és L₂ ={u^lv^kw^k; l, k∈N}.

Megmutatható, hogy L₁ és L₂, s így a 2.7 Tétel szerint L₁ +L₂ is környezet-független nyelvek (l. 3.10 feladat).

A következő két tétel mutatja, hogy az előző példa eredményei nem véletlenek.

3.26. Tétel. (Parikh tétel) Ha az L ⊆ U^∗ nyelv környezetfüggetlen, akkor ϕ(L) féllineáris.

Bizonyítás Az e nyelv nyilvánvalóan lineáris, ezért elegendő megmutatni, hogy az e /∈ L környezetfüggetlen nyelvek féllineárisak. Ebből ugyanis kö-vetkezik, hogy az L+e nyelvek is féllineárisaik. A 3.1 Lemma alapján az is feltehető, hogy L szigorúan e-mentes. A 3.3 Tétel szerint L-et megadhatjuk Chomsky normálformában. (Ez a feltétel csak amiatt kell, hogy ne szerepel-jenek X −→ X vagy Y −→ e alakú szabályok.) Legyen L = L(G), ahol G = (VN, U, S, H) környezetfüggetlen grammatika. Tekintsük a változóknak egy olyan V ⊆ V_N részhalmazát, amelyre S ∈ V. Jelölje L_V azt a U feletti

nyelvet, amely azokból a p ∈ U⁺ szavakból áll, amelyek levezethetők S-ből úgy, hogy a levezetésben szereplő változók V-beliek, s minden V-beli változó szerepel a levezetésben. Mivel V_N véges halmaz, ezért véges sok ilyen V rész-halmaz van. Továbbá minden p ∈ U⁺ szóhoz van ilyen tulajdonságú V 6= ∅ részhalmaz, amelyre p ∈ L_V. Tekintsünk ugyanis egy S =⇒^∗_G p levezetést, s legyen V a levezetésben szereplő változók halmaza. Ez azt jelenti, hogy L véges sok ilyen LV egyesítése. Ezért a bizonyításhoz elegendő megmutatni azt, hogy ϕ(L_V) féllineáris.

Tegyük fel, hogy |V|=m. Jelölje L_V,m ⊆L_V azoknak a p∈L_V szavaknak a halmazát, amelyek megadhatók olyan S =⇒^∗_G p levezetéssel, amelyekben L_V definíciója szerint csak V-bel változók szerepelnek, továbbá minden ilyen változó a levezetés fájának útjain legfeljebb (m+ 1)-szer. Nyilvánvaló, hogy LV,m véges.

Most minden X ∈ V esetén legyen V_X azoknak az P ∈ U^∗XU^∗ mondat-formáknak a halmaza, amelyekre van olyan X =⇒^∗_G P levezetés, amelyekben csak V-beli változók szerepelnek, s a levezetés fájának útjain minden változó legfeljebb (m+ 1)-szer. Világos, hogy a minden X ∈V változóra a V_X halmaz is véges. (Megjegyezzük, hogy V_X lehet ∅ is.)

Legyen α : VX →U^∗ az a leképezés, amely a VX-beli szavakból törli az X

halmazokat. A (3.8) definíció szerint K féllineáris.

Megmutatjuk, hogy ϕ(L_V) = K. Először a K ⊆ ϕ(L_V) tartalmazást iga-zoljuk. Legyen t∈K tetszőleges vektor. Ha t=s_j valamely 1≤j ≤l esetén, akkor (3.12) szerint van olyan p∈L_V,m, hogyϕ(p) =t. Így a K ⊆ϕ(L_V) tar-talmazás bizonyításához (3.14) és (3.15) szerint elegendő megmutatni azt, hogy ha tetszőlegest∈K vektorrat∈ϕ(L_V), akkor t+t_i ∈ϕ(L_V) (1 ≤i≤k). Ha t ∈K ∩ϕ(L_V), akkor van olyan p∈ L_V, amelyre ϕ(p) =t és olyan S −→^∗_G p

levezetés, amelyben csak V-beli változók vannak. Így (3.13) szerint léteznek olyan X ∈ V és P ∈ U^∗XU^∗, amelyekre van olyan X =⇒^∗_G P levezetés, amelyben csak V-beli változók szerepelnek, s a levezetés fájának minden útján legfeljebb (m + 1)-szer, valamint ϕ(α(P)) = t_i. Tekintsük azt a levezetést, amelynek levezetési fáját úgy kapjuk, hogy az S =⇒^∗_G plevezetés fájában egy X-szel jelölt csúcsa helyére az X =⇒^∗_G P levezetés fáját tesszük. Ha az így le-vezetési fájában minden változó V-beli, s a levezetési fának nincs olyan útja, amelyben valamely változó (m+ 1)-nél többször szerepelne. Ebben az esetben p∈L_V,m, ezért van olyan s_j ∈ϕ(L_V,m) (1 ≤j ≤l), hogy t=s_j, azaz t∈K.

Tegyük fel, hogy az F levezetési fa valamely útjának legalábbm+ 2 csúcsa van ugyanazzal a változóval jelölve. Legyenek ennek az útnak c₀, c₁, . . . , c_m+1 csúcsai ugyanazzal az X ∈V változóval jelölve. Az F levezetési fa c_h gyökerű részfája legyen F_h (h= 0,1, . . . , m+ 1). F₀-ban minden úton legfeljebb m+ 1 alkalommal szerepel ugyanaz a változó. MivelF_h+1azF_h fa részfája, ezért min-den F_h-ban minden úton legfeljebb m+ 1 csúcs van ugyanazzal a változóval megjelölve. Nyilvánvalóan van olyan 1≤h ≤m, amelyre F_h-ban és F_h+1-ben ugyanazok a változók szerepelnek. Jelölje F⁰ azt a levezetési fát, amelyet úgy kapunk F-ből, hogy a c_h csúcsot F_h+1 részfával helyettesítjük. Másrészt le-gyen F” az a levezetési fa, amelyet úgy származtatunk F_h-ból, hogy töröljük a F_h+1 részfát a gyökere kivételével, azazF_h-ban azF_h+1 részfát az X változó-val megjelölt egyetlen csúcsból álló részfáváltozó-val helyettesítjük. Akkor van olyan P ∈ U^∗XU^∗ és olyan X =⇒^∗_G P levezetés, amelynek levezetési fája F”. Így ϕ(α(P)) = t_i valamely 1 ≤ i ≤ k esetén. Ha F⁰ az S =⇒^∗_G q levezetés fája, akkor

ϕ(p) = ϕ(q) +t_i.

Nyilvánvaló, hogy q ∈ L_V. Továbbá F⁰-nek kevesebb csúcsa van mint F -nek. Ha F⁰-ben nincs olyan út, amelyben V-beli változó (m+ 1)-nél többször szerepelne, akkor q ∈ L_V,m. Ekkor van olyan s_j ∈ ϕ(L_V,m) (1 ≤ j ≤ l), hogy ϕ(q) = s_j, azaz

ϕ(p) = sj+tj ∈K.

Ellenkező esetben ismételjük meg p helyettq-val a fenti eljárást. Véges számú lépésben kapjuk, hogy

Ezzel megmutattuk, hogy ϕ(L_V) = K. 2 Legyen L1 és L2 két U = {u1, . . . , un} ábécé feletti nyelv. Azt mondjuk, hogy L₁ és L₂ betűekvivalensek, ha ϕ(L₁) =ϕ(L₂), ahol ϕ a Parikh függvény.

Minthogy minden véges nyelv reguláris, ezért a következő tétel a végtelen (nem reguláris) környezetfüggetlen nyelvek esetében érdekes.

3.27. Tétel. Bármely környezetfüggetlen nyelvhez van vele betűekvivalens re-guláris nyelv.

Bizonyítás Legyen L környezetfüggetlen nyelv az U = {u₁, . . . , u_n} ábécé felett. A 3.26 Tétel szerint ϕ(L) féllineáris. Így ϕ(L) véges sok K1, . . . , Kl

lineáris halmaz egyesítése. Tegyük fel, hogy K_j ={t_j₀ +

i=1

n_it_j_i n_i ∈N, i= 1, . . . , k_j}, (j = 1, . . . , l).

Minden j_i-re (j = 1, . . . , l, i= 1, . . . , k_j)legyen t_j_i = (m_j_i_,1, . . . , m_j_i_,n) Ha L_j (j = 1, . . . , l) az

u^m₁^j⁰^,1. . . u^mn^j⁰^,n(u^m₁ ^j¹^,1. . . u^mn^j¹^,n)^∗. . .(u

m_jk

j,1

1 . . . u

m_jk

j,n

n )^∗

reguláris nyelv, akkor ϕ(L_j) = K_j (j = 1, . . . , l). Amiből következik, hogy az L⁰ =L₁∪ · · · ∪L_k reguláris nyelv betűekvivalens L-lel. 2 A 3.27 Tétel szerint egy U = {u₁, . . . , u_n} ábécé feletti (nem reguláris) környezetfüggetlen nyelv szavaiban a betűket lehet úgy permutálni, hogy a permutálásokkal kapott nyelv reguláris. Megjegyezzük, hogy a 3.27 Tételből azonnal adódik a 3.7 Következmény, vagyis, hogy egyelemű ábécé feletti nyelv akkor és csak akkor környezetfüggetlen, ha reguláris.

3.28. Példa. Az U ={x, y} ábécé feletti

L={x^ky^k; k ∈N} ∪ {xyx^ly^2l; l ∈N} ∪ {xyx^2my^2m; m∈N}

nyelv környezetfüggetlen, de nem reguláris. Az L nyelv betűekvivalens az L⁰ = (xy)^∗+xy(xy²)^∗+xy(x²y²)^∗ reguláris nyelvvel.

AzLnyelv környezetfüggetlen, mert generálja aG= ({S, A, B},{x, y}, S, H) 2 típusó grammatika, amelyben a H-beli szabályok:

S −→e, S−→xSy, S −→xyA, S −→xyB A−→xAy², A−→e, B −→x²By², B −→e.

A 8.8 Lemma segítségével megmutatható, hogy L nem reguláris. Továbbá ϕ(L) = ϕ(L⁰) = {t₀+kt₁; k∈N} ∪ {t₁+lt₂+mt₃; l, m∈N}, ahol

t0 = (0,0), t1 = (1,1), t2 = (1,2),

azaz a két nyelv betűekvivalens. A 3.26 Tétel szerint ϕ(L)féllineáris.

A következő példa mutatja, hogy a arikh tétel) nem fordítható meg.

3.29. Példa. A 3.6 Tétel bizonyításában megmutattuk, hogy az {x, y, z} ábécé feletti L = {x^ky^kz^k;k ∈ N} nyelv környezetfüggő, de nem környezetfüggetlen.

Az előző példához hasonlóan a ϕ(L) ={(k, k, k);k∈N} halmaz lineáris, s így féllineáris, mert a

t₀ = (0,0,0), t₁ = (1,1,1)

vektorok megfelelnek a (3.8) feltételnek. Megjegyezzük, hogy az L nyelv betűek-vivalens az {(xyz)^k;k∈N} reguláris nyelvvel.

Feladatok

3.1. Adjunk meg olyan környezetfüggetlen grammatikákat, amelyek generálják az

L1 ={a³ⁿbⁿ; n = 1,2, . . .}, L2 ={a^mb^k; m ≥k ≥0}

és az (L₁L₂+L₂)^∗ nyelveket.

3.2. Jelölje |p|_a és |p|_b a p ∈ {a, b}^∗ szóban a ill. b előfordulásainak számát.

Adjunk meg olyan környezetfüggetlen grammatikát, amely tetszőlegeskpozitív egész számra az

L_k ={p∈ {a, b}^∗; |p|_a =k|p|_b} nyelvet generálja.

3.3. AzU ={u, v, w} ábécé feletti

L={uⁱvⁱw^j; i, j ∈N} ∪ {u^lv^kw^k; l, k∈N} nyelv környezetfüggetlen.

3.4. A véges V ábécé feletti palindromok P(V) nyelve lineáris, s így környe-zetfüggetlen. Adjuk meg a nyelvet környezetfüggetlen kifejezéssel.

3.5. Az egyelemű {x} ábécé feletti L ={x^j²;j ≥1} nyelv nem környezetfüg-getlen.

3.6. Jelölje P a prímszámok halmazát. Az egyelemű {x} ábécé feletti L = {xⁱ; i∈P} nyelv nem környezetfüggetlen.

3.7. A p ∈X^∗ szót négyzetmentesnek nevezzűk, ha nincs q² (q ∈X⁺) alakú részszava. A négyzetmentes szavak nyelvének egy résznyelve akkor és csak akkor környezetfüggetlen, ha véges (s így reguláris). Ha |X| ≤ 2, akkor a négyzetmentes szavak nyelve véges.

4. fejezet

Környezetfüggő nyelvek

A 3.6 Tétel szerint a környezetfüggő nyelvek osztálya bővebb, mint a környe-zetfüggetlen nyelvek osztálya. Mint már említettük ez az állítás a megfelelő grammatikákra nem igaz. Azonban bizonyos környezetfüggetlen nyelvek ge-nerálását egyszerűbbé tehetjük környezetfüggő grammatikák felhasználásával.

Ebben a fejezetben a környezetfüggő nyelvek néhány alapvető tulajdonságát tárgyaljuk.

4.1. Hosszúságot nem csökkentő grammatikák

Egy G = (V_N, V_T, S, H) grammatika P −→ Q H-beli szabályát hosszúságot csökkentőnek nevezzük, ha |P| > |Q| és hosszúságot nem csökkentőnek ne-vezzük, ha |P| ≤ |Q|. Hasonlóan beszélhetünk hosszúságot növelő ill. nem növelő szabályról is. AG= (V_N, V_T, S, H)grammatikáthosszúságot nem csök-kentőnek hívjuk, ha minden H-beli szabály jobb oldala legalább olyan hosszú, mint a bal oldala, azaz minden H-beliP −→Q szabályra|P| ≤ |Q|.

A környezetfüggő grammatikák szabályai, az S −→ e szabály kivételével, hosszúságot nem csökkentők. Másrészt igaz a következő lemma.

4.1. Lemma. Minden hosszúságot nem csökkentő grammatikához megadható egy vele ekvivalens környezetfüggő grammatika.

Bizonyítás LegyenG= (V_N, V_T, S, H)hosszúságot nem csökkentő grammati-ka. A 2.2 Lemma szerint feltehető, hogy Gstandard. (A standard grammatika konstrukciója során hosszúságot nem csökkentő grammatikából hosszúságot nem csökkentő grammatikát kapunk.) Tekintsük azt a G⁰ = (V_N⁰ , V_T, S, H⁰) grammatikát, amelyben H⁰-tH-ból a következőképpen kapjuk. MindenH-beli X −→ x (X ∈ V_N, x ∈ V_T) alakú szabály legyen H⁰-beli szabály is. (Mivel G standard, ezért a terminálisokat csak ilyen alakú szabályok tartalmazzák.)

Továbbá minden H-beli X −→ P (X ∈ V_N, P ∈ V_N⁺) alakú szabály is legyen H⁰-beli szabály. Legyen P −→ Q egy tetszőleges terminálist nem tartalmazó H-beli szabály, amelyre |P| ≥ 2. Akkor P = X₁X₂. . . X_k és Q = Y₁Y₂. . . Y_n alakban adható meg, ahol X₁, X₂, . . . , X_k, Y₁, Y₂, . . . , Y_n ∈ V_N, (2 ≤ k ≤ n).

Vezessük be a Z₁, Z₂, . . . Z_k ∈/ V_N ∪V_T új változókat és vegyük a következő szabályokat:

X₁X₂. . . X_k−→Z₁X₂. . . X_k, Z₁X₂. . . X_k −→Z₁Z₂X₃. . . X_k, Z₁Z₂. . . Zk−1X_k −→Z₁Z₂. . . Zk−1Z_kY_k+1. . . Y_n,

Z₁Z₂. . . Z_kY_k+1. . . Y_n −→Y₁Z₂. . . Z_kY_k+1. . . Y_n, . . . Y₁. . . Yk−1Z_kY_k+1. . . Y_n−→Y₁. . . Yk−1Y_kY_k+1. . . Y_n.

Vegyük be H⁰-be minden ilyen P −→ Q H-beli szabály helyett az előbbi tí-pusú szabályokat. Továbbá V_N⁰ tartalmazza ezeket az új nemterminálisokat és V_N elemeit. Belátható, hogy olyanG⁰ (standard) környezetfüggő grammatika,

amely ekvivalens G-vel. 2

Az előző lemma azt jelenti, hogy a hosszúság nem csökkentése a környezet-függőséggel egyenértékű tulajdonság. Kivételt csupán az üres szó generálását biztosító S −→e szabály képez. Megmutatható, hogy (2.4) utolsó

L₁ ⊂ L₀

valódi tartalmazása igaz. Ez az jelenti, hogy a hosszúság nem csökkentése lé-nyeges megszorítást jelent a mondatszerkezetű grammatikákhoz képest. A kör-nyezetfüggő grammatikákkal kapcsolatos problémákat általában jóval nehezebb eldönteni, mint környezetfüggetlen grammatikák esetében, mivel a levezetések szerkezete sokkal bonyolultabb lehet. A hosszúság nem csökkentése azon kevés jó tulajdonságok egyike, amit mindig használhatunk.

4.2. Rekurzív nyelvek

A 3.4 Tétel környezetfüggő nyelvekre is igaz, azaz ezekre a nyelvekre is meg-oldható a szóprobléma.

4.2. Tétel. Minden környezetfüggő nyelv rekurzív.

Bizonyítás LegyenG= (V_N, V_T, S, H)környezetfüggő grammatika ésp∈V_T^∗. A p =e esetben e ∈ L(G) akkor és csak akkor, ha S −→ e∈ H, ami nyilván eldönthető. Feltehetjük tehát, hogy |p|=n ≥1. Tekintsük az olyan

S =P₀, P₁, . . . , Pk−1, P_k =p

szósorozatokat (V_N ∪V_T)⁺-ból, amelyekre

1 =|P₀| ≤ |P₁| ≤ · · · ≤ |Pk−1| ≤ |P_k|=n.

Mivel V_N ∪V_T véges halmaz, ezért az összes ilyen sorozat csak véges sok kü-lönböző szót tartalmaz. Ez azt jelenti, hogy az összes olyan sorozatnak száma, amelyekben ismétlés nem fordul elő, véges. E véges sok sorozat mindegyikében megvizsgálható, hogy

P_j =⇒_G P_j+1, 0≤j < n

teljesül-e. (Az ismétléseket tartalmazó sorozatokat nem kell figyelembe venni, mert minden ismétlést tartalmazó levezetéshez található ismétlést nem

tartal-mazó levezetés is.) 2

A bizonyításban szereplő eldöntési eljárás természetesen gyakorlati célra nem nagyon alkalmas. Mindenesetre látható belőle a probléma nehézsége, ha a sorozatokra |Pj| ≤ |Pj+1|nem teljesül. Tetszőleges0típusú grammatika esetén bizonyítható, hogy ez a tartalmazási probléma ténylegesen eldönthethetetlen.

A következő tétel szerint a 4.2 Tétel megfordítása nem igaz. Ez azt jelenti, hogy a rekurzív nyelvek osztálya bővebb a környezetfüggő nyelvek osztályánál.

4.3. Tétel. Létezik olyan rekurzív nyelv, amelyik nem környezetfüggő.

Bizonyítás Azt mutatjuk meg, hogy kételemű ábécé felett is van olyan re-kurzív nyelv, amelyik nem környezetfüggő. Legyen a kételemű ábécé {a, b}.

Tekintsük azokat a környezetfüggő grammatikákat, amelyek mindegyikének terminális ábécéje {a, b} és mondatszimbóluma S. Ezen grammatikák nem-terminális ábécéit tekinthetjük ugyanazon megszámlálhatóan végtelen

V ={S, X₁, X₂, . . .}

halmaz véges részhalmazaiként. (A változók átjelölésével ez mindig elérhe-tő.) Nyilvánvalóan minden{a, b}feletti környezetfüggő nyelv generálható ilyen grammatikával. Egy ilyen grammatikát a szabályok egy

P₁ −→Q₁, P₂ −→Q₂, . . . , P_n −→Q_n

sorozatával is megadhatunk. A szabályokból ugyanis meg tudjuk határozni a nemterminális ábécét. (Természetesen, ha a szabályokat más sorrendben adjuk meg, akkor is ugyanazt a grammatikát kapjuk.) Minden ilyen G grammatiká-hoz megadunk egy {a, b} feletti p_G szót a következő módon:

Legyen

V⁰ ={a, b,−→,#, S, X₁, X₂, . . .}.

Definiáljuk a ϕ:V⁰ →a⁺b leképezést a

ϕ(a) =ab, ϕ(b) =a²b, ϕ(−→) =a³b, ϕ(#) =a⁴b, ϕ(S) =a⁵b, ϕ(Xi) =a⁵⁺ⁱb, i= 1,2, . . .

feltételekkel. AϕleképezésV⁰ bijektív leképezésea⁺b-re. Jelöljük szinténϕ-vel a ϕmonoid-homomorf kiterjesztését a V^0∗ szabad félcsoportra.

Legyen

p_G=ϕ(P₁ −→Q₁#P₂ −→Q₂#. . .#P_n−→Q_n).

Ha p_G =p_G⁰, akkor nem nehéz belátni, hogy G-t és G⁰-t szabályoknak ugyan-azzal a sorozatával adtuk meg, azaz G = G⁰. Ebből következik, hogy a G grammatikákat a p_G szavakkal is megadhatjuk.

Legyen az{a, b}felettiLnyelv azoknak ap_Gszavaknak a halmaza, amelyek-rep_G ∈/ L(G). Megmutatjuk, hogy azLnyelv rekurzív, de nem környezetfüggő.

A 4.2 Tétel szerint algoritmikusan eldönthető, hogy p_G eleme-e az L(G) környezetfüggő nyelvnek. Így az is eldönthető algoritmikusan, hogyp_G eleme-e L-nek. Ez azt jelenti, hogy Lrekurzív.

Tegyük fel, hogy L környezetfüggő. Akkor van olyan p_G-vel megadott G grammatika, amelyre L = L(G). Az L definíciója miatt, ha p_G ∈ L(G) =L, akkor p_G ∈/ L. Ha pedig p_G ∈/ L(G) = L, akkor p_G ∈ L. Mindkét esetben ellentmondásra jutottunk. Vagyis L nem környezetfüggő. 2 Az U ábécé feletti L nyelvet (U felett) rekurzíve felsorolhatónak nevezzük, ha van olyan eljárás, amely az összesp∈Lszót valamilyen sorrendben (esetleg ismétlésekkel) előállítja, azaz felsorolja.

Könnyű belátni, hogy minden 0típusú nyelv rekurzíve felsorolható. Ehhez nem kell mást csinálnunk, mint rendre előállítanunk a mondatszimbólumból 1,2, . . . lépésben levezethető összes mondatformát, s ezek közül kiválasztani a terminális szavakat. A 11.3 Következmény szerint a 0 típusú nyelvek osztálya és a véges ábécék feletti rekurzíve felsorolható nyelvek osztálya megegyezik.

Továbbá minden véges ábécé feletti rekurzív nyelv rekurzíve felsorolható.

Nem kell ugyanis mást tennünk, mint rendre előállítani az összes p∈U^∗ szót, miközben minden egyes új szó előállítása után alkalmazzuk rá az eldöntési algoritmust, és belevesszük a felsorolásba, ha igen választ kapunk, egyébként elhagyjuk. Ezáltal megadtunk egy felsorolási eljárást, ahol még az ismétléseket is kizártuk.

Megfordítva viszont abból, hogy egy véges ábécé feletti nyelv rekurzíve felsorolható, még nem következik, hogy rekurzív is. Megmutatjuk, hogy a véges ábécé feletti rekurzíve felsorolható nyelvek osztálya bővebb a rekurzív nyelvek osztályánál. Ehhez először bebizonyítjuk a következő állítást.

4.4. Lemma. A véges ábécé felettiL nyelv akkor és csak akkor rekurzív, ha L és L rekurzíve felsorolható.

Bizonyítás Legyen L tetszőleges U véges ábécé feletti nyelv. Ha az L nyelv rekurzív, akkor L is rekurzív, s ezért mind a kettő rekurzíve felsorolható.

Megfordítva, tegyük fel, hogy L és L rekurzíve felsorolhatók. Legyen p ∈ U^∗. Kombináljuk az L és L elemeinek felsorására szolgáló eljárásokat úgy, hogy váltakozva hol az egyikkel, hol a másikkal állítunk elő egy szót, miáltal az U^∗-beli szavaknak egy olyan

p₁, p₂, . . . , p2n−1, p_2n, . . . (n= 1,2, . . .)

felsorolását kapjuk, ahol p2n−1 ∈ L és p_2n ∈ L. Mivel L+L = U^∗, ezért a felsorolásban valahol előfordul p. Most már csak azt kell eldönteni, hogy p páratlan vagy páros helyen szerepel-e a sorozatban, s így végeredményben egy eldöntési algoritmust adtunk meg, vagyis L rekurzív. 2 A 4.4 Lemma szerint annak megmutatásához, hogy a véges ábécé feletti rekurzíve felsorolható nyelvek osztálya bővebb a véges ábécé feletti rekurzív nyelvek osztályánál, elegendő egy véges ábécé felett olyan rekurzíve felsorolható nyelvet találni, amelynek komplementere nem rekurzíve felsorolható.

4.5. Tétel. Létezik véges ábécé feletti rekurzíve felsorolható nyelv, amely nem rekurzív.

Bizonyítás Azt mutatjuk meg, hogy az {a} egyelemű ábécé felett van olyan rekurzíve felsorolható nyelv, amelyenek komplementere nem rekurzíve felsorol-ható. A 4.4 Lemma szerint ebből már következik az állítás.

Tegyük fel, hogy minden rekurzíve felsorolhatóL⊆a^∗nyelvhez a felsorolási eljárás le van írva valamilyen nyelven. Pontosabban feltételezhetjük, hogy van olyan V véges ábécé, hogy az előbbi eljárások mindegyikét valamely E ∈ V^∗ szóval jellemezhetjük. Miután V^∗ megszámlálhatóan végtelen, az E szavakat valamilyen

E₀, E₁, E₂, . . .

sorozatba rendezhetjük. Definiáljuk a következő L⊆a^∗ nyelvet: a^k ∈L akkor és csak akkor, ha az E_k eljárás felsorolja az a^k szót.

Először is nyilvánvaló, hogyLnem lehet rekurzíve felsorolható. Ha ugyanis az lenne, akkor volna olyan Ei eljárás a fenti sorozatban, amely pontosan L elemeit sorolja fel. De akkor akáraⁱ ∈L, akáraⁱ ∈/ L, ellentmondásba kerülünk L definíciójával.

Végül megmutatjuk, hogyLrekurzíve felsorolható. Minden eljárás diszkrét lépésekre bontható, vagyis beszélhetünk az E_k (k-adik eljárás)l-edik lépéséről.

Jelöljük ezt a lépést a (k, l) rendezett párral. Amennyiben a k-adik eljárás az l-edik lépésben befejeződik, akkor ennek az eljárásnak a m-edik lépését l < m esetben úgy értelmezzük, hogy nem csinálunk semmit. Kombináljuk az eljárásokat úgy, hogy a

(0,0),(1,0),(0,1),(2,0),(1,1),(0,2),(3,0),(2,1),(1,2),(0,3), . . .

lépéseket ilyen sorrendben hajtjuk végre egymás után. Ha most a (k, l)-edik lépés éppen az a^k szónak E_k által felsorolt nyelvhez való hozzávételét ered-ményezi, akkor a^k-t felvesszük L-be. Ezzel megadtunk egy eljárást, amely felsorolja L elemeit, tehát Lvalóban rekurzíve felsorolható. 2

4.3. Kuroda normálforma

Most megadjuk a grammatikák Chomsky normálformájának egy általánosítá-sát. A G= (V_N, V_T, S, H) grammatikáról azt mondjuk, hogy Kuroda normál-formában van megadva, ha mindenH-beli szabályX −→x, X −→Y, X −→

Y Z, vagy XY −→W Z alakú, ahol X, Y, W, Z ∈V_N és x∈V_T.

Látható, hogy minden Kuroda normálformában megadott grammatika hosszú-ságot nem csökkentő grammatika. Igaz a Chomsky normálformára vonatkozó 3.3 Tétel hasonló eredmény.

4.6. Tétel. A G= (VN, VT, S, H) hosszúságot nem csökkentő grammatikához van ekvivalens Kuroda normálformában megadott G⁰ = (V_N⁰, V_T, S, H⁰) gram-matika.

Bizonyítás Legyen G = (V_N, V_T, S, H) hosszúságot nem csökkentő gramma-tika. A 2.3 Lemma miatt feltehető, hogy Gstandard, azaz a terminálisok csak X −→x(X ∈V_N, x∈V_T)alakú szabályokban fordulnak elő. Megszerkesztjük V_N-ből és H-ból V_N⁰-t és H⁰-t. Az

X −→x, X −→Y, X −→Y Z, XY −→W Z, X, Y, W, Z ∈V_N, x∈V_T

alakú szabályok legyenek H⁰-beli szabályok is. Ha |Q| ≥3, akkor az X −→Q (X ∈V_N, Q∈V_N⁺)

alakú H-beli szabályokat, mint azt a 3.3 Tétel bizonyításában a Chomsky nor-málformára való átalakításnál tettük, X −→Y Z alakú szabályokkal helyette-síthetjük, miközben V_N-t is kibővítjük új változókkal.

Tekintsük végül az olyan P −→ Q (P, Q∈ V_N⁺) H-beli szabályokat, ame-lyekre |P| ≥2 és |Q| ≥3. Legyen

P =X₁X₂. . . X_k, Q=Y₁Y₂. . . Y_n,

ahol X₁, X₂, . . . X_k, Y₁, Y₂, . . . , Y_n ∈ V_N, (k ≤ n). Vegyük fel a nemterminá-lisok közé az új Z₂, Z₃, . . . , Zn−1 változókat és cseréljük ki a P −→ Q alakú szabályokat a következő szabályokkal:

X₁X₂ −→Y₁Z₂, Z₂X₃ −→Y₂Z₃, . . . , Z_k−1X_k −→Y_k−1Z_k, Z_k−→Y_kZ_k+1, Z_k+1 −→Y_k+1Z_k+2, . . . , Z_n−1 −→Y_n−1Y_n.

Könnyen belátható, hogy így kapott G⁰ = (V_N⁰, V_T, S, H⁰) grammatika G-vel

ekvivalens. 2

4.7. Következmény. Ha egy környezetfüggő grammatika nem tartalmazza az S −→ e szabályt, akkor létezik vele ekvivalens Kuroda normálformában meg-adott grammatika.

A Kuroda normálformában megadott grammatika nem környezetfüggő, ha tartalmazXY −→W Z(X, Y, W, Z ∈V_N)alakú szabályokat. Ezek a szabályok azonban helyettesíthetők a következő környezetfüggő szabályokkal:

XY −→XY⁰, XY⁰ −→X⁰Y⁰, X⁰Y⁰ −→X⁰Z, X⁰Z −→W Z, ahol X⁰ ésY⁰ új változók. Eztfinomított Kuroda normálformának is mondjuk.

Kaptuk a 4.7 Következmény alapján az alábbi eredményt.

4.8. Következmény. Ha aGkörnyezetfüggő grammatika nem tartalmazza az S −→e szabályt, akkor van L-lel vele ekvivalens finomított Kuroda normálfor-mában megadott grammatika.

Az XY −→W Z szabályt nem lehet egyszerűen az

XY −→X⁰Y, X⁰Y −→X⁰Z, X⁰Z −→W Z

szabályokkal helyettesíteni. Ugyanis, ha az eredeti grammatika szabályai pél-dául a következőek:

S −→XY, Y −→ZA, XY −→W Z,

akkor a fenti helyettesítéssel egy olyan grammatikát kapunk, amelyben meg-adható az

S =⇒XY =⇒X⁰Y =⇒X⁰ZA =⇒W ZA

levezetés, amely az eredeti grammatikában nem teljesül.

Figyeljük meg, hogy a Kuroda normálforma finomításakor az XY −→W Z alakú szabályt olyan környezetfüggő szabályokkal helyettesítjük, amelyeknél vagy csak bal oldali vagy csak jobb oldali környezet fordul elő, de mindkét vál-tozat szerepel. Ezeket bal [jobb] oldali környezetfüggő szabályoknak nevezzük.

Megmutatható, hogy lehet csak bal [jobb] oldali környezetfüggő szabályokkal, azaz bal [jobb] oldali környezetfüggő grammatikával tetszőleges környezetfüg-gő nyelvet generálni, azonban egy környezetfügkörnyezetfüg-gő grammatikának egyoldalú környezetfüggő grammatikává való átalakítása általában túlságosan bonyolult ahhoz, hogy gyakorlati célra felhasználjuk.

Az egyoldalú környezetfüggő grammatikák viszont használhatók bizonyos környezetfüggetlen nyelvek megadására, ami előnyős lehet ezek gépi feldolgo-zásának meggyorsítására. Az egyoldalú környezetfüggő grammatikákat is nor-málformára hozhatjuk.

4.9. Tétel. Minden bal oldali környezetfüggő grammatikához megadható olyan ekvivalens grammatika, amelynek szabályai a következő alakúak lehetnek:

X −→x, X −→Y, X −→Y Z, XY −→XZ, ahol x terminális jel, X, Y, Z pedig nemterminálisok.

Bizonyítás Hasonlóan járunk el, mint a 4.1 Lemma bizonyításában, ezért a bizonyítást nem részletezzük. Csak annyit jegyzünk meg, hogy egy bal oldali környezetfüggő szabály:

X1X2. . . XkX −→X1X2. . . XkY1Y2. . . Yn

alakú, amelyben csak változók szerepelnek. Az ilyen szabályt helyettesíthetjük az

X₁X₂ −→X₁Z₂, Z₂X₃ −→Z₂Z₃, . . . , Zk−1X_k −→Zk−1Z_k, Z_kX −→Z_kW₁, W₁ −→Y₁W₂, . . . , W_n−1 −→Y_n−1Y_n,

Z₂ −→X₂, Zk−1 −→Xk−1, Z_k −→X_k

szabályokkal, ahol Z₂, . . . , Z_k, W₁, . . . Wn−1 újonnan bevezetett változók. 2 Természetesen analóg tétel érvényes jobb oldali környezetfüggő grammati-kákra.

4.10. Példa. Megmutatjuk, hogy a V_T ={x, y} ábécé feletti L={x^ky^kx^k;k ≥1}

nyelv környezetfüggő és nem környezetfüggetlen. Megadunk egy L-t generáló Kuroda normálformában adott grammatikát.

A Bar-Hillel lemma segítségével megmutatható, hogyL nem környezetfüg-getlen. Az Lgenerálható azzal aG= (V_N, V_T, S, H)hosszúságot nem csökken-tő grammatikával, amelyre V_N ={S, A} és

H ={S −→xSAx, S −→xyx, xA−→Ax, yA−→yy}.

A 4.1 Lemma szerintLkörnyezetfüggő. A 4.6 Tétel szerint vanG-vel ekvivalens Kuroda normálformában adott grammatika. Az alábbiakban megszerkesztjük ezt a grammatikát.

Először átalakítjuk a 2.2 Lemma bizonyításában megadott módon standard 1 típusúG⁰ = (V_N, V_T, S, H⁰) g rammatikává. Felvesszük azX, Y /∈V_N∪V_T új változókat, azaz V_N⁰ =VN ∪ {X, Y} és H⁰ legyen az

S −→XSAX, S −→XY X, XA−→AX, Y A−→Y Y, X −→x, Y −→y

szabályok halmaza. Utána a 4.6 Tétel bizonyítása szerint járunk el. A 3.3 Tétel bizonyításában alkalmazott eljárással az S −→ XSAX és S −→ XY X szabályokat kicseréljük H⁰-ben az

S −→XX₁, X₁ −→SX₂, X₂ −→AX,

In document ALGEBRAI NYELV- ÉS KÓDELMÉLET (Pldal 66-0)