Főnévi csoport annotációja a C LaR K rendszerrel
V áradi Tam ás
3 MTA Nyelvtudományi Intézet 1068 Budapest, Benczúr u 33
v a ra d i@ n y tu d . hu
Kulcsszavak: felszíni szintaktikai elemzés, NP annotáció, lépcsős reguláris grammatika
Absztrakt. A magyar mondat szerkezetének leírásában kiemelt szerepet játszik a főnévi csoport. E dolgozat keretében beszámolunk arról a folyó munkáról, amely véges állapotú grammatika alkalmazásával megkísérli főnévi csoportok lehető legteljesebb felszíni leírását. Az ún. lépcsős reguláris grammatika (Abney 1996) kifejlesztése a CLaRK rendszerrel történt, melynek bemutatása szintén, melynek bemutatása szintén célja a jelen dolgozatnak.
1 Bevezetés
A dolgozat célja, hogy betekintést adjon a főnévi csoport automatikus felism erését célzó munkálatokba. A kutatások jelenleg is folynak; ezért az itt közzétett eredmények csak közbenső jelentésnek tekinthetők. A főnévi csoport annotációt szabályokra épülő rendszerben, a lépcsős reguláris grammatika m ódszerével (Abney 1996) végezzük. A fejlesztői keretrendszerül a CLaRK rendszert használjuk (Sim ov 2001), am ely hatéko
nyan tám ogatja a kézi gram m atikafejlesztést A dolgozat felépítése a következő: az 2.
részben ism ertetjük a magyar főnévi csoport gépi feldolgozás szempontjából releváns sajátosságait, a 3. rész bemutatja a feldolgozott adatok szerkezetét és annotációjukat.
E zt követi a CLaRK rendszer rövid áttekintése a 4. részben, m ely után ism ertetjük a főnévi csoport felism erésére kifejlesztett szabályrendszer fő elveit. A z 6. rész tartal
m azza m a gukat a szabályokat, m elyek értékelését a 7. részben találjuk.
2 A kiinduló nyelvi tények rövid jellemzése
A m agyar nyelvet közkeletű felfogás szerint szabad szórendű nyelvnek tekintik.
Pontosabban fogalmazva, a magyarban a m ondatszintű szintaktikai összetevők (szin
tagm ák) viszonylag szabad sorrendben helyezkedhetnek el. Lényeges azonban lát
nunk, am int azt É. K iss (1994) B rassai nyom án hangsúlyozza, hogy a m ondatok szó
rendjét a topic-comm ent szerkezet határozza m eg elsősorban, am elyet viszont a közlés
illetve a m ondatokon átívelő szöveg kommunikációs sajátosságai szabnak meg. A szintagm ákon belül az összetevők sorrendje kötött.
A viszonylag szabad szórendet a rendkívül gazdag alaktan teszi lehetővé, ugyanis a szintaktikai szerepeket a szintagmák főtagjának ragja jelzi. Ebből fakad az a sajátos
ság, hogy az egyszerű magyar m ondatok döntő többségét egy ige és a körülötte talál
ható rágós főnévi csoportok alkotják. Esetragos főnévi csoportokkal fejezünk k i olyan viszonyokat, amelyeket más nyelvekben prepozíciós kifejezésekkel vagy határozó
szókkal fejtünk ki. Ez a tény ad kitüntetett jelentőséget a főnévi csoportok vizsgálatá
nak.
A főnévi csoportok belső szerkezetének sajátosságaiból csak néhányat em elünk ki, amelyek m egnehezíthetik az automatikus felism erést. A z első tény, am it m egjegyezhe
tünk, hogy sajnos nincsenek olyan egyértelmű tám pontok, am elyek m inden helyzetben jelölnék a főnévi csoportok határait. A rágós főnevektől várhatnánk, hogy egyben a főnévi csoport jobb szélét is jelölnék de a birtokos és az igeneves szerkezetek m iatt ez gyakran nincs így, másrészt a főnévi csoportból hiányozhat is m aga a főnév, m ely - esetben a jelző veszi át a szerepét és egyben toldalékait. A főnévi csoport kezdetét egy determ ináns elem jelölheti ugyan, de ezek jelenléte m ég kevésbé feltételezhető, m int a főnévi fejé, másrészt a rekurzív beágyazódásból és az igenes szerkezetek bő
vítményeiből az is következik, hogy nem egyszerű feladat a determ ináns elem hovatar
tozását m egállapítani.
Az igeneves szerkezetek elemzése különleges nehézséget jelent. A problém át az okozza, hogy a folyamatos vagy befejezett igenév (m elynek szófaji besorolása szintén nem egyszerű feladat, hiszen az gyakran m egkívánja a szintaktikai szerep elem zését is) olyan elem, amelyik gyakran hozza m agával a bővítm ényei egész sorát mintegy beágyazott tágm ondatot alkotva a főnévi csoporton belül. Egyéb nyelvekben a főnévi fejet követő prepozíciós szerkezettel fejezzük ki mindezt, itt tehát ugyanazzal a prob
lémával találkozunk a magyar főnévi csoporton belül, am elyet a prepozíciós szerke
zettel bíró nyelvekben a PP csatolás nehézségei cím szó alatt tartanak számon.
3. Az adatok
A főnévi csoportok annotációját megelőzi a szöveg m orfoszintaktikai elem zése. Ez arra a technológiára épül, amellyel a M agyar Nemzeti Szövegtár elem zett és egyértehnűsített változata készült. A jelen kísérlethez az M NSZ m orfoszintaktikai annotációjának némileg leegyszerűsített xml változatát használtuk. A z egyszerűsítés nem érintette a szavakhoz társított nyelvi elem zést. M inden szóalak (token) egy <w>
elem en belül fordul elő és három attribútum tartozik hozzá, m elyek a lem m át, a m or
foszintaktikai jellem zőt (msd) és a korpusz tag-et tartalm azzák.
A szintaktikai elemzés minőségét nagyban m eghatározza a m orfoszintaktikai anno
táció és az egyértelműsítés pontossága. Az MNSZ annotációs rendszere alapvetően a HUMOR rendszer (Prószéky és Tihanyi 1996) jelkészletét használja, b á r annak kim e
netét további szűrésnek veti alá a párhuzamos elem zések kiszűrése és a lem m a m egál
lapítása céljából. A z egyértelműsítés pontossága eléri a 98% -ot (O ravecz és D ienes 2002).
A feldolgozott szövegeket a H eti Világgazdaságból m erítettük. A választás szándé
kosan azért esett erre a folyóiratra, m ert benyom ásunk szerint a cikkek olyan kim un
kált, időnként már-már m esterkélt stílusban íródtak, am elyek nagy szám ban tartalm az
nak rendkívül összetett N P szerkezeteket. B ízvást állíthatjuk tehát, hogy ez a szöveg igazán próbára teszi az annotáló rendszert. Ugyanakkor azonban ezt a tényt érdem es figyelembe venni az eredm ények értékelésekor.
4 A fejlesztő eszköz
A z NP annotálási szabályok fejlesztését a CLaRK rendszer (Sim ov e t al. 2002) segít
ségével végezzük. A CLaRK rendszer egy XM L alapú korpuszfeldolgozó eszköz, am ely három technológia egyesítésével biztosítja a hatékony szövegannotációt: az X path mechanizmus biztosiba a szöveg tetszőleges részének elérését, a beépített véges autom ata dolgozza fel a reguláris kifejezésekkel definiált nyelvtant, és az ú.n. megszo
rítás (constraint) szabályok alkalm azásával növelhetjük az XM L technológia rugal
m asságát. '
A legalsó szinten egy tokenizáló m odul bontja fel a szöveget a kívánt egységekre.
A tokenizáló szabályok tetszés szerint definiálhatók, lépcsősen egym ásra épülnek, és akár m inden szabályhoz külön-külön is hozzárendelhetők. A szöveg feldolgozásának központi elem e a lépcsős reguláris grammatika, am elynek szabályaihoz az X path kifejezések segítségével definiáljuk a szabályok hatókörét és a szöveg feldolgozandó elem eit. A nyelvtani szabályok m eghatározásakor m ódunk van a reguláris kifejezések bal és jobb oldalán lévő szövegkontextus definiálására. A szabályok kim enete egy XM L annotáció, am elyet általában arra használunk, hogy a szabályra illeszkedő szö
vegrész köré XM L kódokat ültessünk. A nyelvtan lépcsős jelleg ét az biztosítja, hogy az egyes szabályok kim eneteként előállt egységek szerepelhetnek a későbbi szabályok bem enetében. A z XM L annotáció jó l illeszkedett a nyelvtan hierarchikus szerkezeté
hez és az X path kifejezések valam int a constraint szabályok alkalm azásával könnyen meg lehetett fogalm azni olyan szabályokat, m int például a head jegyeinek perkolációját a legfelsőbb kiterjesztési szintre még akkor is, am ikor az összetett NP struktúra m iatt a két pont igen távol esett egymástól.
5. Az NP annotáció általános elvei
A 2. részben ism ertetett sajátosságokat figyelembe véve a kővetkező elvekre építettük a főnévi felism erő szabályainkat. M ivel a magyarban a főnévi csoport belső szerkezete balra rekurzív, az NP bal szélső elem e az N P feje, am it alapfeltevésként azaz a szabá
lyok első körében egy N tö lt be. A leghosszabb illeszkedő m intát használtuk a regulá
ris kifejezésekben. A z N P-n belül szerepelhet m ódosító szerepben N is, de csak nom i- natívusz esetben. A teljes NP annotációs nyelvtan két szakaszra bom lik: az elsőben m eghatározzuk azokat az egyszerű N P-ket, am elyeknek a feje N -vagy tulajdonnév
(NamedEntity). Am int az az 1 . ábrán látható, ez a szakasz is lépcsősen egymásra hivatkozó szabályokból épül fel.
A rra való tekintettel, hogy a magyarban á főnévi csoportok fejének szeresét a főne
vek hiányában m ódosító elemek is. átvehetik, az elemzés további szakaszában a
„depth-first” stratégiát követtük, vagyis először az N fejű összetett főnévi csoportok szerkezetét határoztuk meg egészen addig, amíg a szabályok m ár nem találtak illesz
kedő adatokat, m ajd ezután következett a nem N -fejű NP-k feldolgozása. M ég itt is két szakaszt kellett elválasztanunk, először ugyanis csak olyan NP-ket határoztunk meg, melyekben a fej szerepét nem igenév tö lti be, m ajd csak ezek kim erítő lefedése után engedhettük meg az igeneveket fej szerepben (Id. NP2 és NP3 a 2. ábrában).
Külön problém át jelentett az igeneves szerkezetek előtt álló módosító elem ek jobb szélének a meghatározása. Jobb híján kénytelenek voltunk megengedni tetszőleges NP bővítményt, ami kétségtelenül a túlgenerálás egyik forrása lehet.
6. Az NP felismerő szabályrendszer
A kidolgozott szabályokat az 1. és a 2. ábra tartalm azza. Amint látható a szabályok egyaránt hivatkoznak szintaktikai osztályokra (<DP>), m sd attribútum okra (
<”FF.Num.NOM”>) és szóalakokra (<”és”>). A reguláris kifejezések sajátos notációjának leírását a CLaRK rendszer leírásában találhatjuk (Simov 2001).
1. ábra. A z alapszintű N P - k szabályrendszere
7. Eredmények
A szabályrendszert 100 kézzel azonosított m ondaton (gold standard) teszteltük. A tesztelésben a legfelsőbb szintű N P-k helyességét vizsgáltuk. A 2S37 tóként tartalm a
zó tesztszöveg összesen 488 mondatszintű N P-t tartalm azott. K ét mérőszámot is cél
szerűnek tartottunk alkalmazni, az egyik a szerkezetekre vonatkoztatva m utatja a pon
tosság és lefedettség számait, a m ásik az érintett szövegszavakban méri ugyanezt.
(i) szerkezeti mutatószámok:
- pontosság: a kézzel ellenőrzött és a m intában egyaránt szereplő N P-k száma/ a m intában szereplő N P-k száma
- lefedés: a kézzel ellenőrzött és a m intában egyaránt szereplő N P-k száma / a kézzel ellenőrzött anyagban szereplő N P -k szám a
(ii) szóalak m utatószám : Ugyanaz a k ét arány, m int (i)-ben, de nem N P-k ben, ha
nem a szóalakok számában meghatározva.
A z F B I értékeket a szokásos m ódon, az alábbi képlet szerint számoltuk:
FB l=2*pontosság * lefedés/(pontosság + lefedés).
A z eredm ényeket az 1. és a 2. táblázatban foglaltuk össze.
N P_particple
NP3 I
N P c o o r d
■{(J"N.#NO W r>|<"N.#DAT#">),<"N.PS#n>
^ •N .P S r> .< " N .P S r>
■|(jNP>.<"és”>|<"vagy'>)+,<N P>
( :D P>|<"D er>)?,(<"Adv">|<"Con">|(<NP>+.<"NU">?)|(<AdjP>
|· *A d r> ),((< o |< "C o n '> )+ 1(<’ A d#">|<A djP >))?|(<"P re.V .IN P >
I "V .IN F,>)|,((<0|<"C on">)+,O íV .IN P ,>)?)+,(<"M IB.NO M ">|<
^IIF.N O M ">).<N P >
^DP>?1(<”FF.Num.NOM">|<,,Num .NO M ">)?.<DIG>*,(<DP>|<
AdjP>)*.<"N.NOM">*,(<AdjP>|<"Ar>|<"FF.A.r>|<"Num )»">|
^■АЬЬГ>|<"Рго#">)
ftD P >|<*D er>)?,(<”Adv">|<"Con">|(<NP>+.<"NU">?)|(<AdJP>
I 'A d#">),«<o|<"C on">)+,(<"A d#">|<A dJP >))?|(<"P re.V .IN F”>
I 'V .IN F ^ )|,((<0|<"Con”>)+.<"#V .IN r>)?)+,(<"M IB .N O M ',>|<
■ /1IF.N0M”>).<NP>
4DP>?.(<"FF.Num.NOM”>|<"Num .NOM ”>)?.<DIG>, I(<DP>|
4Ad)P>)*.<“ N.NOM">*1(<AdjP>|<"A#">|<"FF.A#">|<',N um Îf,>
|у ,АЬЬГ>|<” Р гоГ> )*,< ” М1#,>
■|^NP>,<"és”>|<"vagy"i>)+,<NP>
2. ábra. Az összetett NP szerkezeteket előállító szabályrendszer
A szám szerű m utatókat az érintett szavak tekintetében elfogadhatónak tekinthetjük.
A nyelvtan kim enetét minőségileg vizsgálva a benyom ásaink kedvezőbbek annál, m int am it a szám ok tükröznek. Az eltérést részben az indokolja, hogy, am int azt a 3. rész
ben em lítettük, a feldolgozott szöveg a főnévi csoportok szem pontjából több tekintet
ben is extrém nek tekinthető. A szabályrendszer kim enetének hibaelem zése jelenleg is folyik. A további munka kereteit egyértelm űen kijelölik a jelenlegi szabályok által lefedett jelenségek ism ert korlátái.
NP szám gold standard-ban: 488
NP szám a m intában: 611
Helyes N P-k száma 323
NP pontosság: 52.87%
NP lefedettség: 66.17%
FB I: 58.78%
1. táb láz at NP szerkezeti m utatószámok
Szószám a gold standard-ban: 1660
Szószám a m intában:: 1577
Szószám a helyes NP-kben: 1511
Szószám pontosság: 95.81%
Szószám lefedettség: 91.02%
FB I: 93.36%
2. táb lá z a t Szóalak szerinti m utatószám ok
Hivatkozások
Abney S 1996 Partial Parsing via Finite-State Cascades In Proceedings o f the ESSLLI'96 Robust Parsing Workshop, pp 1 - 8
É. Kiss К 1994 Sentence structure and word order. In: K iefer-É . K iss (eds): The Syntactic Structure o f Hungarian. San Diego, Academic Press. 1-90.
Oravecz Cs, Dienes P 2002: Efficient stochastic part o f speech tagging for H ungarian.
In Proceedings o f the Second International Conference on Language Resources and Evaluation, Las Palmas, pp 710—717
Prószéky G, Tihanyi L 1996 "Humor - a M orphological System for Corpus Analysis." Proceedings o f the first TELRI Seminar in Tihany. B udapest, pp 149-58.
Simov К 2001 CLaKK - an XM L-based System for C orpora D evelopm ent in Proceedings o f the Corpus Linguistics 2001 Conference, Lancaster, pp 553-560.
Simov K et al. 2002 CLaRK System: Construction o f Treebanks in The First
■ Workshop on Treebanks and Linguistics Theories Sopozol: LM L CLPP B ulgarian Academy o f Sciences 183-199.