• Nem Talált Eredményt

Főnévi csoport annotációja a CLaRK rendszerrel

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Főnévi csoport annotációja a CLaRK rendszerrel"

Copied!
6
0
0

Teljes szövegt

(1)

Főnévi csoport annotációja a C LaR K rendszerrel

V áradi Tam ás

3 MTA Nyelvtudományi Intézet 1068 Budapest, Benczúr u 33

v a ra d i@ n y tu d . hu

Kulcsszavak: felszíni szintaktikai elemzés, NP annotáció, lépcsős reguláris grammatika

Absztrakt. A magyar mondat szerkezetének leírásában kiemelt szerepet játszik a főnévi csoport. E dolgozat keretében beszámolunk arról a folyó munkáról, amely véges állapotú grammatika alkalmazásával megkísérli főnévi csoportok lehető legteljesebb felszíni leírását. Az ún. lépcsős reguláris grammatika (Abney 1996) kifejlesztése a CLaRK rendszerrel történt, melynek bemutatása szintén, melynek bemutatása szintén célja a jelen dolgozatnak.

1 Bevezetés

A dolgozat célja, hogy betekintést adjon a főnévi csoport automatikus felism erését célzó munkálatokba. A kutatások jelenleg is folynak; ezért az itt közzétett eredmények csak közbenső jelentésnek tekinthetők. A főnévi csoport annotációt szabályokra épülő rendszerben, a lépcsős reguláris grammatika m ódszerével (Abney 1996) végezzük. A fejlesztői keretrendszerül a CLaRK rendszert használjuk (Sim ov 2001), am ely hatéko­

nyan tám ogatja a kézi gram m atikafejlesztést A dolgozat felépítése a következő: az 2.

részben ism ertetjük a magyar főnévi csoport gépi feldolgozás szempontjából releváns sajátosságait, a 3. rész bemutatja a feldolgozott adatok szerkezetét és annotációjukat.

E zt követi a CLaRK rendszer rövid áttekintése a 4. részben, m ely után ism ertetjük a főnévi csoport felism erésére kifejlesztett szabályrendszer fő elveit. A z 6. rész tartal­

m azza m a gukat a szabályokat, m elyek értékelését a 7. részben találjuk.

2 A kiinduló nyelvi tények rövid jellemzése

A m agyar nyelvet közkeletű felfogás szerint szabad szórendű nyelvnek tekintik.

Pontosabban fogalmazva, a magyarban a m ondatszintű szintaktikai összetevők (szin­

tagm ák) viszonylag szabad sorrendben helyezkedhetnek el. Lényeges azonban lát­

nunk, am int azt É. K iss (1994) B rassai nyom án hangsúlyozza, hogy a m ondatok szó­

rendjét a topic-comm ent szerkezet határozza m eg elsősorban, am elyet viszont a közlés

(2)

illetve a m ondatokon átívelő szöveg kommunikációs sajátosságai szabnak meg. A szintagm ákon belül az összetevők sorrendje kötött.

A viszonylag szabad szórendet a rendkívül gazdag alaktan teszi lehetővé, ugyanis a szintaktikai szerepeket a szintagmák főtagjának ragja jelzi. Ebből fakad az a sajátos­

ság, hogy az egyszerű magyar m ondatok döntő többségét egy ige és a körülötte talál­

ható rágós főnévi csoportok alkotják. Esetragos főnévi csoportokkal fejezünk k i olyan viszonyokat, amelyeket más nyelvekben prepozíciós kifejezésekkel vagy határozó­

szókkal fejtünk ki. Ez a tény ad kitüntetett jelentőséget a főnévi csoportok vizsgálatá­

nak.

A főnévi csoportok belső szerkezetének sajátosságaiból csak néhányat em elünk ki, amelyek m egnehezíthetik az automatikus felism erést. A z első tény, am it m egjegyezhe­

tünk, hogy sajnos nincsenek olyan egyértelmű tám pontok, am elyek m inden helyzetben jelölnék a főnévi csoportok határait. A rágós főnevektől várhatnánk, hogy egyben a főnévi csoport jobb szélét is jelölnék de a birtokos és az igeneves szerkezetek m iatt ez gyakran nincs így, másrészt a főnévi csoportból hiányozhat is m aga a főnév, m ely - esetben a jelző veszi át a szerepét és egyben toldalékait. A főnévi csoport kezdetét egy determ ináns elem jelölheti ugyan, de ezek jelenléte m ég kevésbé feltételezhető, m int a főnévi fejé, másrészt a rekurzív beágyazódásból és az igenes szerkezetek bő­

vítményeiből az is következik, hogy nem egyszerű feladat a determ ináns elem hovatar­

tozását m egállapítani.

Az igeneves szerkezetek elemzése különleges nehézséget jelent. A problém át az okozza, hogy a folyamatos vagy befejezett igenév (m elynek szófaji besorolása szintén nem egyszerű feladat, hiszen az gyakran m egkívánja a szintaktikai szerep elem zését is) olyan elem, amelyik gyakran hozza m agával a bővítm ényei egész sorát mintegy beágyazott tágm ondatot alkotva a főnévi csoporton belül. Egyéb nyelvekben a főnévi fejet követő prepozíciós szerkezettel fejezzük ki mindezt, itt tehát ugyanazzal a prob­

lémával találkozunk a magyar főnévi csoporton belül, am elyet a prepozíciós szerke­

zettel bíró nyelvekben a PP csatolás nehézségei cím szó alatt tartanak számon.

3. Az adatok

A főnévi csoportok annotációját megelőzi a szöveg m orfoszintaktikai elem zése. Ez arra a technológiára épül, amellyel a M agyar Nemzeti Szövegtár elem zett és egyértehnűsített változata készült. A jelen kísérlethez az M NSZ m orfoszintaktikai annotációjának némileg leegyszerűsített xml változatát használtuk. A z egyszerűsítés nem érintette a szavakhoz társított nyelvi elem zést. M inden szóalak (token) egy <w>

elem en belül fordul elő és három attribútum tartozik hozzá, m elyek a lem m át, a m or­

foszintaktikai jellem zőt (msd) és a korpusz tag-et tartalm azzák.

A szintaktikai elemzés minőségét nagyban m eghatározza a m orfoszintaktikai anno­

táció és az egyértelműsítés pontossága. Az MNSZ annotációs rendszere alapvetően a HUMOR rendszer (Prószéky és Tihanyi 1996) jelkészletét használja, b á r annak kim e­

netét további szűrésnek veti alá a párhuzamos elem zések kiszűrése és a lem m a m egál­

lapítása céljából. A z egyértelműsítés pontossága eléri a 98% -ot (O ravecz és D ienes 2002).

(3)

A feldolgozott szövegeket a H eti Világgazdaságból m erítettük. A választás szándé­

kosan azért esett erre a folyóiratra, m ert benyom ásunk szerint a cikkek olyan kim un­

kált, időnként már-már m esterkélt stílusban íródtak, am elyek nagy szám ban tartalm az­

nak rendkívül összetett N P szerkezeteket. B ízvást állíthatjuk tehát, hogy ez a szöveg igazán próbára teszi az annotáló rendszert. Ugyanakkor azonban ezt a tényt érdem es figyelembe venni az eredm ények értékelésekor.

4 A fejlesztő eszköz

A z NP annotálási szabályok fejlesztését a CLaRK rendszer (Sim ov e t al. 2002) segít­

ségével végezzük. A CLaRK rendszer egy XM L alapú korpuszfeldolgozó eszköz, am ely három technológia egyesítésével biztosítja a hatékony szövegannotációt: az X path mechanizmus biztosiba a szöveg tetszőleges részének elérését, a beépített véges autom ata dolgozza fel a reguláris kifejezésekkel definiált nyelvtant, és az ú.n. megszo­

rítás (constraint) szabályok alkalm azásával növelhetjük az XM L technológia rugal­

m asságát. '

A legalsó szinten egy tokenizáló m odul bontja fel a szöveget a kívánt egységekre.

A tokenizáló szabályok tetszés szerint definiálhatók, lépcsősen egym ásra épülnek, és akár m inden szabályhoz külön-külön is hozzárendelhetők. A szöveg feldolgozásának központi elem e a lépcsős reguláris grammatika, am elynek szabályaihoz az X path kifejezések segítségével definiáljuk a szabályok hatókörét és a szöveg feldolgozandó elem eit. A nyelvtani szabályok m eghatározásakor m ódunk van a reguláris kifejezések bal és jobb oldalán lévő szövegkontextus definiálására. A szabályok kim enete egy XM L annotáció, am elyet általában arra használunk, hogy a szabályra illeszkedő szö­

vegrész köré XM L kódokat ültessünk. A nyelvtan lépcsős jelleg ét az biztosítja, hogy az egyes szabályok kim eneteként előállt egységek szerepelhetnek a későbbi szabályok bem enetében. A z XM L annotáció jó l illeszkedett a nyelvtan hierarchikus szerkezeté­

hez és az X path kifejezések valam int a constraint szabályok alkalm azásával könnyen meg lehetett fogalm azni olyan szabályokat, m int például a head jegyeinek perkolációját a legfelsőbb kiterjesztési szintre még akkor is, am ikor az összetett NP struktúra m iatt a két pont igen távol esett egymástól.

5. Az NP annotáció általános elvei

A 2. részben ism ertetett sajátosságokat figyelembe véve a kővetkező elvekre építettük a főnévi felism erő szabályainkat. M ivel a magyarban a főnévi csoport belső szerkezete balra rekurzív, az NP bal szélső elem e az N P feje, am it alapfeltevésként azaz a szabá­

lyok első körében egy N tö lt be. A leghosszabb illeszkedő m intát használtuk a regulá­

ris kifejezésekben. A z N P-n belül szerepelhet m ódosító szerepben N is, de csak nom i- natívusz esetben. A teljes NP annotációs nyelvtan két szakaszra bom lik: az elsőben m eghatározzuk azokat az egyszerű N P-ket, am elyeknek a feje N -vagy tulajdonnév

(4)

(NamedEntity). Am int az az 1 . ábrán látható, ez a szakasz is lépcsősen egymásra hivatkozó szabályokból épül fel.

A rra való tekintettel, hogy a magyarban á főnévi csoportok fejének szeresét a főne­

vek hiányában m ódosító elemek is. átvehetik, az elemzés további szakaszában a

„depth-first” stratégiát követtük, vagyis először az N fejű összetett főnévi csoportok szerkezetét határoztuk meg egészen addig, amíg a szabályok m ár nem találtak illesz­

kedő adatokat, m ajd ezután következett a nem N -fejű NP-k feldolgozása. M ég itt is két szakaszt kellett elválasztanunk, először ugyanis csak olyan NP-ket határoztunk meg, melyekben a fej szerepét nem igenév tö lti be, m ajd csak ezek kim erítő lefedése után engedhettük meg az igeneveket fej szerepben (Id. NP2 és NP3 a 2. ábrában).

Külön problém át jelentett az igeneves szerkezetek előtt álló módosító elem ek jobb szélének a meghatározása. Jobb híján kénytelenek voltunk megengedni tetszőleges NP bővítményt, ami kétségtelenül a túlgenerálás egyik forrása lehet.

6. Az NP felismerő szabályrendszer

A kidolgozott szabályokat az 1. és a 2. ábra tartalm azza. Amint látható a szabályok egyaránt hivatkoznak szintaktikai osztályokra (<DP>), m sd attribútum okra (

<”FF.Num.NOM”>) és szóalakokra (<”és”>). A reguláris kifejezések sajátos notációjának leírását a CLaRK rendszer leírásában találhatjuk (Simov 2001).

1. ábra. A z alapszintű N P - k szabályrendszere

7. Eredmények

A szabályrendszert 100 kézzel azonosított m ondaton (gold standard) teszteltük. A tesztelésben a legfelsőbb szintű N P-k helyességét vizsgáltuk. A 2S37 tóként tartalm a­

zó tesztszöveg összesen 488 mondatszintű N P-t tartalm azott. K ét mérőszámot is cél­

szerűnek tartottunk alkalmazni, az egyik a szerkezetekre vonatkoztatva m utatja a pon­

tosság és lefedettség számait, a m ásik az érintett szövegszavakban méri ugyanezt.

(5)

(i) szerkezeti mutatószámok:

- pontosság: a kézzel ellenőrzött és a m intában egyaránt szereplő N P-k száma/ a m intában szereplő N P-k száma

- lefedés: a kézzel ellenőrzött és a m intában egyaránt szereplő N P-k száma / a kézzel ellenőrzött anyagban szereplő N P -k szám a

(ii) szóalak m utatószám : Ugyanaz a k ét arány, m int (i)-ben, de nem N P-k ben, ha­

nem a szóalakok számában meghatározva.

A z F B I értékeket a szokásos m ódon, az alábbi képlet szerint számoltuk:

FB l=2*pontosság * lefedés/(pontosság + lefedés).

A z eredm ényeket az 1. és a 2. táblázatban foglaltuk össze.

N P_particple

NP3 I

N P c o o r d

■{(J"N.#NO W r>|<"N.#DAT#">),<"N.PS#n>

^ •N .P S r> .< " N .P S r>

■|(jNP>.<"és”>|<"vagy'>)+,<N P>

( :D P>|<"D er>)?,(<"Adv">|<"Con">|(<NP>+.<"NU">?)|(<AdjP>

|· *A d r> ),((< o |< "C o n '> )+ 1(<’ A d#">|<A djP >))?|(<"P re.V .IN P >

I "V .IN F,>)|,((<0|<"C on">)+,O íV .IN P ,>)?)+,(<"M IB.NO M ">|<

^IIF.N O M ">).<N P >

^DP>?1(<”FF.Num.NOM">|<,,Num .NO M ">)?.<DIG>*,(<DP>|<

AdjP>)*.<"N.NOM">*,(<AdjP>|<"Ar>|<"FF.A.r>|<"Num )»">|

^■АЬЬГ>|<"Рго#">)

ftD P >|<*D er>)?,(<”Adv">|<"Con">|(<NP>+.<"NU">?)|(<AdJP>

I 'A d#">),«<o|<"C on">)+,(<"A d#">|<A dJP >))?|(<"P re.V .IN F”>

I 'V .IN F ^ )|,((<0|<"Con”>)+.<"#V .IN r>)?)+,(<"M IB .N O M ',>|<

■ /1IF.N0M”>).<NP>

4DP>?.(<"FF.Num.NOM”>|<"Num .NOM ”>)?.<DIG>, I(<DP>|

4Ad)P>)*.<“ N.NOM">*1(<AdjP>|<"A#">|<"FF.A#">|<',N um Îf,>

|у ,АЬЬГ>|<” Р гоГ> )*,< ” М1#,>

■|^NP>,<"és”>|<"vagy"i>)+,<NP>

2. ábra. Az összetett NP szerkezeteket előállító szabályrendszer

A szám szerű m utatókat az érintett szavak tekintetében elfogadhatónak tekinthetjük.

A nyelvtan kim enetét minőségileg vizsgálva a benyom ásaink kedvezőbbek annál, m int am it a szám ok tükröznek. Az eltérést részben az indokolja, hogy, am int azt a 3. rész­

ben em lítettük, a feldolgozott szöveg a főnévi csoportok szem pontjából több tekintet­

ben is extrém nek tekinthető. A szabályrendszer kim enetének hibaelem zése jelenleg is folyik. A további munka kereteit egyértelm űen kijelölik a jelenlegi szabályok által lefedett jelenségek ism ert korlátái.

(6)

NP szám gold standard-ban: 488

NP szám a m intában: 611

Helyes N P-k száma 323

NP pontosság: 52.87%

NP lefedettség: 66.17%

FB I: 58.78%

1. táb láz at NP szerkezeti m utatószámok

Szószám a gold standard-ban: 1660

Szószám a m intában:: 1577

Szószám a helyes NP-kben: 1511

Szószám pontosság: 95.81%

Szószám lefedettség: 91.02%

FB I: 93.36%

2. táb lá z a t Szóalak szerinti m utatószám ok

Hivatkozások

Abney S 1996 Partial Parsing via Finite-State Cascades In Proceedings o f the ESSLLI'96 Robust Parsing Workshop, pp 1 - 8

É. Kiss К 1994 Sentence structure and word order. In: K iefer-É . K iss (eds): The Syntactic Structure o f Hungarian. San Diego, Academic Press. 1-90.

Oravecz Cs, Dienes P 2002: Efficient stochastic part o f speech tagging for H ungarian.

In Proceedings o f the Second International Conference on Language Resources and Evaluation, Las Palmas, pp 710—717

Prószéky G, Tihanyi L 1996 "Humor - a M orphological System for Corpus Analysis." Proceedings o f the first TELRI Seminar in Tihany. B udapest, pp 149-58.

Simov К 2001 CLaKK - an XM L-based System for C orpora D evelopm ent in Proceedings o f the Corpus Linguistics 2001 Conference, Lancaster, pp 553-560.

Simov K et al. 2002 CLaRK System: Construction o f Treebanks in The First

■ Workshop on Treebanks and Linguistics Theories Sopozol: LM L CLPP B ulgarian Academy o f Sciences 183-199.

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Legyen szabad reménylenünk (Waldapfel bizonyára velem tart), hogy ez a felfogás meg fog változni, De nagyon szükségesnek tar- tanám ehhez, hogy az Altalános Utasítások, melyhez

A főnévi igenév alkalmazásának másik oka rend- szerelméleti: mivel a főnévi igenév fogalmába a befejezett, a beálló és a folyamatos alcsoportok is beletartoznak,

A helyi emlékezet nagyon fontos, a kutatói közösségnek olyanná kell válnia, hogy segítse a helyi emlékezet integrálódását, hogy az valami- lyen szinten beléphessen

tanévben az általános iskolai tanulók száma 741,5 ezer fő, az érintett korosztály fogyásából adódóan 3800 fővel kevesebb, mint egy évvel korábban.. Az

Az akciókutatás korai időszakában megindult társadalmi tanuláshoz képest a szervezeti tanulás lényege, hogy a szervezet tagjainak olyan társas tanulása zajlik, ami nem

Már csak azért sem, mert ezen a szinten még nem egyértelmű a tehetség irányú fejlődés lehetősége, és végképp nem azonosítható a tehetség, tehát igen nagy hibák

Nagy József, Józsa Krisztián, Vidákovich Tibor és Fazekasné Fenyvesi Margit (2004): Az elemi alapkész- ségek fejlődése 4–8 éves életkorban. Mozaik

táblázat: Az innovációs index, szervezeti tanulási kapacitás és fejlődési mutató korrelációs mátrixa intézménytí- pus szerinti bontásban (Pearson korrelációs