Főnévi csoport annotációja a CLaRK rendszerrel

(1)

Főnévi csoport annotációja a C LaR K rendszerrel

V áradi Tam ás

3 MTA Nyelvtudományi Intézet 1068 Budapest, Benczúr u 33

v a ra d i@ n y tu d . hu

Kulcsszavak: felszíni szintaktikai elemzés, NP annotáció, lépcsős reguláris grammatika

Absztrakt. A magyar mondat szerkezetének leírásában kiemelt szerepet játszik a főnévi csoport. E dolgozat keretében beszámolunk arról a folyó munkáról, amely véges állapotú grammatika alkalmazásával megkísérli főnévi csoportok lehető legteljesebb felszíni leírását. Az ún. lépcsős reguláris grammatika (Abney 1996) kifejlesztése a CLaRK rendszerrel történt, melynek bemutatása szintén, melynek bemutatása szintén célja a jelen dolgozatnak.

1 Bevezetés

A dolgozat célja, hogy betekintést adjon a főnévi csoport automatikus felism erését célzó munkálatokba. A kutatások jelenleg is folynak; ezért az itt közzétett eredmények csak közbenső jelentésnek tekinthetők. A főnévi csoport annotációt szabályokra épülő rendszerben, a lépcsős reguláris grammatika m ódszerével (Abney 1996) végezzük. A fejlesztői keretrendszerül a CLaRK rendszert használjuk (Sim ov 2001), am ely hatéko

nyan tám ogatja a kézi gram m atikafejlesztést A dolgozat felépítése a következő: az 2.

részben ism ertetjük a magyar főnévi csoport gépi feldolgozás szempontjából releváns sajátosságait, a 3. rész bemutatja a feldolgozott adatok szerkezetét és annotációjukat.

E zt követi a CLaRK rendszer rövid áttekintése a 4. részben, m ely után ism ertetjük a főnévi csoport felism erésére kifejlesztett szabályrendszer fő elveit. A z 6. rész tartal

m azza m a gukat a szabályokat, m elyek értékelését a 7. részben találjuk.

2 A kiinduló nyelvi tények rövid jellemzése

A m agyar nyelvet közkeletű felfogás szerint szabad szórendű nyelvnek tekintik.

Pontosabban fogalmazva, a magyarban a m ondatszintű szintaktikai összetevők (szin

tagm ák) viszonylag szabad sorrendben helyezkedhetnek el. Lényeges azonban lát

nunk, am int azt É. K iss (1994) B rassai nyom án hangsúlyozza, hogy a m ondatok szó

rendjét a topic-comm ent szerkezet határozza m eg elsősorban, am elyet viszont a közlés

(2)

illetve a m ondatokon átívelő szöveg kommunikációs sajátosságai szabnak meg. A szintagm ákon belül az összetevők sorrendje kötött.

A viszonylag szabad szórendet a rendkívül gazdag alaktan teszi lehetővé, ugyanis a szintaktikai szerepeket a szintagmák főtagjának ragja jelzi. Ebből fakad az a sajátos

ság, hogy az egyszerű magyar m ondatok döntő többségét egy ige és a körülötte talál

ható rágós főnévi csoportok alkotják. Esetragos főnévi csoportokkal fejezünk k i olyan viszonyokat, amelyeket más nyelvekben prepozíciós kifejezésekkel vagy határozó

szókkal fejtünk ki. Ez a tény ad kitüntetett jelentőséget a főnévi csoportok vizsgálatá

nak.

A főnévi csoportok belső szerkezetének sajátosságaiból csak néhányat em elünk ki, amelyek m egnehezíthetik az automatikus felism erést. A z első tény, am it m egjegyezhe

tünk, hogy sajnos nincsenek olyan egyértelmű tám pontok, am elyek m inden helyzetben jelölnék a főnévi csoportok határait. A rágós főnevektől várhatnánk, hogy egyben a főnévi csoport jobb szélét is jelölnék de a birtokos és az igeneves szerkezetek m iatt ez gyakran nincs így, másrészt a főnévi csoportból hiányozhat is m aga a főnév, m ely - esetben a jelző veszi át a szerepét és egyben toldalékait. A főnévi csoport kezdetét egy determ ináns elem jelölheti ugyan, de ezek jelenléte m ég kevésbé feltételezhető, m int a főnévi fejé, másrészt a rekurzív beágyazódásból és az igenes szerkezetek bő

vítményeiből az is következik, hogy nem egyszerű feladat a determ ináns elem hovatar

tozását m egállapítani.

Az igeneves szerkezetek elemzése különleges nehézséget jelent. A problém át az okozza, hogy a folyamatos vagy befejezett igenév (m elynek szófaji besorolása szintén nem egyszerű feladat, hiszen az gyakran m egkívánja a szintaktikai szerep elem zését is) olyan elem, amelyik gyakran hozza m agával a bővítm ényei egész sorát mintegy beágyazott tágm ondatot alkotva a főnévi csoporton belül. Egyéb nyelvekben a főnévi fejet követő prepozíciós szerkezettel fejezzük ki mindezt, itt tehát ugyanazzal a prob

lémával találkozunk a magyar főnévi csoporton belül, am elyet a prepozíciós szerke

zettel bíró nyelvekben a PP csatolás nehézségei cím szó alatt tartanak számon.

3. Az adatok

A főnévi csoportok annotációját megelőzi a szöveg m orfoszintaktikai elem zése. Ez arra a technológiára épül, amellyel a M agyar Nemzeti Szövegtár elem zett és egyértehnűsített változata készült. A jelen kísérlethez az M NSZ m orfoszintaktikai annotációjának némileg leegyszerűsített xml változatát használtuk. A z egyszerűsítés nem érintette a szavakhoz társított nyelvi elem zést. M inden szóalak (token) egy <w>

elem en belül fordul elő és három attribútum tartozik hozzá, m elyek a lem m át, a m or

foszintaktikai jellem zőt (msd) és a korpusz tag-et tartalm azzák.

A szintaktikai elemzés minőségét nagyban m eghatározza a m orfoszintaktikai anno

táció és az egyértelműsítés pontossága. Az MNSZ annotációs rendszere alapvetően a HUMOR rendszer (Prószéky és Tihanyi 1996) jelkészletét használja, b á r annak kim e

netét további szűrésnek veti alá a párhuzamos elem zések kiszűrése és a lem m a m egál

lapítása céljából. A z egyértelműsítés pontossága eléri a 98% -ot (O ravecz és D ienes 2002).

(3)

A feldolgozott szövegeket a H eti Világgazdaságból m erítettük. A választás szándé

kosan azért esett erre a folyóiratra, m ert benyom ásunk szerint a cikkek olyan kim un

kált, időnként már-már m esterkélt stílusban íródtak, am elyek nagy szám ban tartalm az

nak rendkívül összetett N P szerkezeteket. B ízvást állíthatjuk tehát, hogy ez a szöveg igazán próbára teszi az annotáló rendszert. Ugyanakkor azonban ezt a tényt érdem es figyelembe venni az eredm ények értékelésekor.

4 A fejlesztő eszköz

A z NP annotálási szabályok fejlesztését a CLaRK rendszer (Sim ov e t al. 2002) segít

ségével végezzük. A CLaRK rendszer egy XM L alapú korpuszfeldolgozó eszköz, am ely három technológia egyesítésével biztosítja a hatékony szövegannotációt: az X path mechanizmus biztosiba a szöveg tetszőleges részének elérését, a beépített véges autom ata dolgozza fel a reguláris kifejezésekkel definiált nyelvtant, és az ú.n. megszo

rítás (constraint) szabályok alkalm azásával növelhetjük az XM L technológia rugal

m asságát. '

A legalsó szinten egy tokenizáló m odul bontja fel a szöveget a kívánt egységekre.

A tokenizáló szabályok tetszés szerint definiálhatók, lépcsősen egym ásra épülnek, és akár m inden szabályhoz külön-külön is hozzárendelhetők. A szöveg feldolgozásának központi elem e a lépcsős reguláris grammatika, am elynek szabályaihoz az X path kifejezések segítségével definiáljuk a szabályok hatókörét és a szöveg feldolgozandó elem eit. A nyelvtani szabályok m eghatározásakor m ódunk van a reguláris kifejezések bal és jobb oldalán lévő szövegkontextus definiálására. A szabályok kim enete egy XM L annotáció, am elyet általában arra használunk, hogy a szabályra illeszkedő szö

vegrész köré XM L kódokat ültessünk. A nyelvtan lépcsős jelleg ét az biztosítja, hogy az egyes szabályok kim eneteként előállt egységek szerepelhetnek a későbbi szabályok bem enetében. A z XM L annotáció jó l illeszkedett a nyelvtan hierarchikus szerkezeté

hez és az X path kifejezések valam int a constraint szabályok alkalm azásával könnyen meg lehetett fogalm azni olyan szabályokat, m int például a head jegyeinek perkolációját a legfelsőbb kiterjesztési szintre még akkor is, am ikor az összetett NP struktúra m iatt a két pont igen távol esett egymástól.

5. Az NP annotáció általános elvei

A 2. részben ism ertetett sajátosságokat figyelembe véve a kővetkező elvekre építettük a főnévi felism erő szabályainkat. M ivel a magyarban a főnévi csoport belső szerkezete balra rekurzív, az NP bal szélső elem e az N P feje, am it alapfeltevésként azaz a szabá

lyok első körében egy N tö lt be. A leghosszabb illeszkedő m intát használtuk a regulá

ris kifejezésekben. A z N P-n belül szerepelhet m ódosító szerepben N is, de csak nom i- natívusz esetben. A teljes NP annotációs nyelvtan két szakaszra bom lik: az elsőben m eghatározzuk azokat az egyszerű N P-ket, am elyeknek a feje N -vagy tulajdonnév

(4)

(NamedEntity). Am int az az 1 . ábrán látható, ez a szakasz is lépcsősen egymásra hivatkozó szabályokból épül fel.

A rra való tekintettel, hogy a magyarban á főnévi csoportok fejének szeresét a főne

vek hiányában m ódosító elemek is. átvehetik, az elemzés további szakaszában a

„depth-first” stratégiát követtük, vagyis először az N fejű összetett főnévi csoportok szerkezetét határoztuk meg egészen addig, amíg a szabályok m ár nem találtak illesz

kedő adatokat, m ajd ezután következett a nem N -fejű NP-k feldolgozása. M ég itt is két szakaszt kellett elválasztanunk, először ugyanis csak olyan NP-ket határoztunk meg, melyekben a fej szerepét nem igenév tö lti be, m ajd csak ezek kim erítő lefedése után engedhettük meg az igeneveket fej szerepben (Id. NP2 és NP3 a 2. ábrában).

Külön problém át jelentett az igeneves szerkezetek előtt álló módosító elem ek jobb szélének a meghatározása. Jobb híján kénytelenek voltunk megengedni tetszőleges NP bővítményt, ami kétségtelenül a túlgenerálás egyik forrása lehet.

6. Az NP felismerő szabályrendszer

A kidolgozott szabályokat az 1. és a 2. ábra tartalm azza. Amint látható a szabályok egyaránt hivatkoznak szintaktikai osztályokra (<DP>), m sd attribútum okra (

<”FF.Num.NOM”>) és szóalakokra (<”és”>). A reguláris kifejezések sajátos notációjának leírását a CLaRK rendszer leírásában találhatjuk (Simov 2001).

1. ábra. A z alapszintű N P - k szabályrendszere

7. Eredmények

A szabályrendszert 100 kézzel azonosított m ondaton (gold standard) teszteltük. A tesztelésben a legfelsőbb szintű N P-k helyességét vizsgáltuk. A 2S37 tóként tartalm a

zó tesztszöveg összesen 488 mondatszintű N P-t tartalm azott. K ét mérőszámot is cél

szerűnek tartottunk alkalmazni, az egyik a szerkezetekre vonatkoztatva m utatja a pon

tosság és lefedettség számait, a m ásik az érintett szövegszavakban méri ugyanezt.

(5)

(i) szerkezeti mutatószámok:

- pontosság: a kézzel ellenőrzött és a m intában egyaránt szereplő N P-k száma/ a m intában szereplő N P-k száma

- lefedés: a kézzel ellenőrzött és a m intában egyaránt szereplő N P-k száma / a kézzel ellenőrzött anyagban szereplő N P -k szám a

(ii) szóalak m utatószám : Ugyanaz a k ét arány, m int (i)-ben, de nem N P-k ben, ha

nem a szóalakok számában meghatározva.

A z F B I értékeket a szokásos m ódon, az alábbi képlet szerint számoltuk:

FB l=2*pontosság * lefedés/(pontosság + lefedés).

A z eredm ényeket az 1. és a 2. táblázatban foglaltuk össze.

N P_particple

NP3 I

N P c o o r d

■{(J"N.#NO W r>|<"N.#DAT#">),<"N.PS#n>

^ •N .P S r> .< " N .P S r>

■|(jNP>.<"és”>|<"vagy'>)+,<N P>

( :D P>|<"D er>)?,(<"Adv">|<"Con">|(<NP>+.<"NU">?)|(<AdjP>

|· *A d r> ),((< o |< "C o n '> )+ 1(<’ A d#">|<A djP >))?|(<"P re.V .IN P >

I "V .IN F,>)|,((<0|<"C on">)+,O íV .IN P ,>)?)+,(<"M IB.NO M ">|<

^IIF.N O M ">).<N P >

^DP>?1(<”FF.Num.NOM">|<,,Num .NO M ">)?.<DIG>*,(<DP>|<

AdjP>)*.<"N.NOM">*,(<AdjP>|<"Ar>|<"FF.A.r>|<"Num )»">|

^■АЬЬГ>|<"Рго#">)

ftD P >|<*D er>)?,(<”Adv">|<"Con">|(<NP>+.<"NU">?)|(<AdJP>

I 'A d#">),«<o|<"C on">)+,(<"A d#">|<A dJP >))?|(<"P re.V .IN F”>

I 'V .IN F ^ )|,((<0|<"Con”>)+.<"#V .IN r>)?)+,(<"M IB .N O M ',>|<

■ /1IF.N0M”>).<NP>

4DP>?.(<"FF.Num.NOM”>|<"Num .NOM ”>)?.<DIG>, I(<DP>|

4Ad)P>)*.<“ N.NOM">*1(<AdjP>|<"A#">|<"FF.A#">|<',N um Îf,>

|у ,АЬЬГ>|<” Р гоГ> )*,< ” М1#,>

■|^NP>,<"és”>|<"vagy"i>)+,<NP>

2. ábra. Az összetett NP szerkezeteket előállító szabályrendszer

A szám szerű m utatókat az érintett szavak tekintetében elfogadhatónak tekinthetjük.

A nyelvtan kim enetét minőségileg vizsgálva a benyom ásaink kedvezőbbek annál, m int am it a szám ok tükröznek. Az eltérést részben az indokolja, hogy, am int azt a 3. rész

ben em lítettük, a feldolgozott szöveg a főnévi csoportok szem pontjából több tekintet

ben is extrém nek tekinthető. A szabályrendszer kim enetének hibaelem zése jelenleg is folyik. A további munka kereteit egyértelm űen kijelölik a jelenlegi szabályok által lefedett jelenségek ism ert korlátái.

(6)

NP szám gold standard-ban: 488

NP szám a m intában: 611

Helyes N P-k száma 323

NP pontosság: 52.87%

NP lefedettség: 66.17%

FB I: 58.78%

1. táb láz at NP szerkezeti m utatószámok

Szószám a gold standard-ban: 1660

Szószám a m intában:: 1577

Szószám a helyes NP-kben: 1511

Szószám pontosság: 95.81%

Szószám lefedettség: 91.02%

FB I: 93.36%

2. táb lá z a t Szóalak szerinti m utatószám ok

Hivatkozások

Abney S 1996 Partial Parsing via Finite-State Cascades In Proceedings o f the ESSLLI'96 Robust Parsing Workshop, pp 1 - 8

É. Kiss К 1994 Sentence structure and word order. In: K iefer-É . K iss (eds): The Syntactic Structure o f Hungarian. San Diego, Academic Press. 1-90.

Oravecz Cs, Dienes P 2002: Efficient stochastic part o f speech tagging for H ungarian.

In Proceedings o f the Second International Conference on Language Resources and Evaluation, Las Palmas, pp 710—717

Prószéky G, Tihanyi L 1996 "Humor - a M orphological System for Corpus Analysis." Proceedings o f the first TELRI Seminar in Tihany. B udapest, pp 149-58.

Simov К 2001 CLaKK - an XM L-based System for C orpora D evelopm ent in Proceedings o f the Corpus Linguistics 2001 Conference, Lancaster, pp 553-560.

Simov K et al. 2002 CLaRK System: Construction o f Treebanks in The First

■ Workshop on Treebanks and Linguistics Theories Sopozol: LM L CLPP B ulgarian Academy o f Sciences 183-199.