• Nem Talált Eredményt

Szintaktikai elemzés

2. Igei szerkezetek modellje 27

2.2. A reprezentáció megvalósítása

2.2.2. Szintaktikai elemzés

A tagmondatra bontást követ˝o részleges szintaktikai elemzés során nem törekszünk a tagmondatok teljes szintaktikai fájának felépítésére. Ehelyett az elemzés célja : a köz-ponti, „kerethordozó” ige és a mellette álló f˝onévi csoport b˝ovítmények azonosítása.

A modellnek megfelel˝oen csak az igét és a névszói csoportokat dolgozzuk fel, a jelen lév˝o határozószókat például figyelmen kívül hagyjuk. Ezek alapján a reprezentáció már kialakítható.

Az elemz ˝o algoritmus és a felhasznált nyelvtan

A tagmondatra bontáshoz hasonlóan itt is szabályalapú megközelítéssel dolgozunk. A szabályok szintén a szövegszavak és írásjelek sorozata fölött megfogalmazott reguláris kifejezések, a kidolgozott morfológiai reprezentáció részletekbe men˝o lekérdezéseket tesz lehet˝ové, az elemzési lépésekben részletekbe men˝oen hivatkozhatunk a magyar morfológia különféle jellemz˝oire. Ezek a szabályok – a tagmondatra bontó szabályok-tól eltér˝oen – többszint ˝u reguláris nyelvtant (cascaded regular grammar) (Abney, 1996) alkotnak : egymásra épülnek, azaz a felismert csoportokból további szabályokkal, re-kurzívan újabb, nagyobb kiterjedés ˝u csoportok képezhet˝ok (Sass, 2005).

Az elemz˝o algoritmus végighalad a korpusz tagmondatain, és egységek sorozatára sorrendben illeszti a szabályokat. Illeszkedés esetén a szabály által lefedett egységek-b˝ol a szabály bal oldalának megfelel˝o címkével ellátott új egységet képez. Az egységek kezdetben a szavak, kés˝obb a szabályok alkalmazása révén létrejött több szóból álló csoportok. A felhasznált szabályrendszert, mely képes a különféle névszói csoportok és az ige felismerésére, a 7. ábrán mutatom be. A névszói csoportokat érint˝o szabá-lyok megalkotása során építettem a (Váradi, 2003) cikkben ismertetett szabászabá-lyokra.

Nemrégen készült magyar nyelvre egy jó min˝oség ˝u f˝onévi csoport felismer˝o rendszer (Recski, 2010), ezt természetesen a jöv˝oben a reprezentáció el˝oállítása során alkalmaz-ni lehet.

A modell alapján a névszói csoportok két számunkra fontos tulajdonsága az esetrag és a csoport feje mint tartalmi elem : ezeket azonosítjuk és ezek fognak a reprezentációba kerülni. Amint a 28. oldalon említettük, a névutókat az esetragokkal azonos módon kezeljük, a b˝ovítmények tehát esetragos vagy névutós névszói csoportok. Egy szabály alkalmazása során alapesetben a létrejöv˝o új egység a benne szerepl˝o utolsó szó tu-lajdonságait örökli, ennek köszönhet˝o, hogy a névszó esetragja a névszói csoport eset jegyébe kerül a többszörösen összetett névszói csoportok esetén is. A névutók (f˝oként a személyragos névutók) természetesen ett˝ol eltér˝o speciális kezelést igényelnek. A rendszer tartalmazza azt az egyszer ˝usítést, hogy a b˝ovítménykeretek minden b˝ovít-ményi helyén csak egy darab névszói szerkezetet enged meg, ha egy mondatban több azonos esetragú névszói csoport szerepel, akkor azok közül csak a legutolsót vesszük tekintetbe. Ha egy tárgyas ragozású igével bíró mondatban nincs explicit tárgyeset ˝u csoport, akkor a speciális NULLtartalmi elemmel veszünk fel egyet, elfogadjuk, hogy az igei személyrag egy tárgyi b˝ovítményi hely meglétére utal az adott b˝ovítményke-retben.

Az ige meghatározása

Amint azt a 7. ábrán látjuk, az elemzés megjelöli a tagmondat központi igéjének meg-határozásához szükséges információkat is : a finit igét, az esetleges elváló igeköt˝ot és az esetleges jelen lév˝o f˝onévi igenevet. Az iget˝o azonosítása során az ige morfológiai elemzéséb˝ol kinyerhet˝o iget˝o elé kapcsoljuk az igeköt˝ot. Elhagyjuk a ‘-hat/-het’ képz˝ot, mivel az nem befolyásolja az ige vonzatkeretét. Ha a tagmondatban f˝onévi igenevet találunk, akkor a f˝onévi igenév tövét tekintjük f˝oigének. Persze sok esetben nem igaz, hogy a tagmondat f˝onévi igenevéhez tartozik a tagmondatban lév˝o összes b˝ovítmény.

Az ilyen hibák javítására számos szabály tesztelése után egy megbízhatóan m ˝uköd˝o szabályt tartottunk meg : ragos f˝onévi igenév esetén ha nincs a tagmondatban alany-eset ˝u névszói csoport, akkor a ‘-nAk’-ragos névszói csoportot tekintjük alanynak. Ez alapján a ‘Péternek meg kellett csinálnia a feladatot.’ mondat elemzése után ‘megcsinál’

lesz az ige, ‘Péter’ lesz az alany és a ‘feladat’ a tárgy.

2.2. A reprezentáció megvalósítása

NP:d <- [{’Det’} {form=’egy’}]? [{’A’} {’Num’}]* NE{}

NP:d <- {’Det’} [{’A’} {’Num’}]* {’N’}

NP:mif <- [{’Det’} {form=’egy’}]? MNI{} NP{}

NP:mif <- A{} NP{}

7. ábra.A részleges szintaktikai elemzés nyelvtana bels˝o formátumban. Egy kapcsos-zárójelen belüli feltételek egy egységre vonatkoznak. Kezdetben egy szó egy egység, de a szabályok alkalmazásával több szóból álló egységek is képz˝odnek. A szögletes zárójel vagylagosságot jelöl. A szabályokat sorban alkalmazzuk, a szabály jobb oldalá-nak megfelel˝o egység(ek) a szabály bal oldalán látható címkét kapják meg. Az 1. sza-bálycsoport nagyon egyszer ˝u tulajdonnévfelismer˝ot valósít meg : lényegében nagybe-t ˝us szavak sorozanagybe-tainagybe-t keresi meg, kiegészínagybe-tve azzal, hogy bizonyos szófajú mondanagybe-t- mondat-kezd˝o (position=’0’) nagybet ˝us szavakat nem enged meg tulajdonnév részeként.

A 2. szabálycsoport a legegyszer ˝ubb határozott (NP :d) és határozatlan (NP :n) f˝onévi csoportokat azonosítja. A 3. szabály elkülöníti a személyragos névutókat (a lemmában található aláhúzás karakter alapján). A 4. szabálycsoport felépíti a névmási, melléknévi és számnévi csoportokat. Az 5. csoportban következnek a birtokos szerkezeteket ke-zel˝o szabályok. A 6. szabály a névutós csoportokat ismeri fel. A 7. szabálycsoport a melléknévi igeneves szerkezeteket kezeli. A 8. szabálycsoport számbaveszi a tagmon-dat igéjével kapcsolatos elemeket : a finit igét, az esetleges elváló igeköt˝ot, illetve f˝onévi igenevet ; végül a 9. szabálycsoport a legfels˝obb szint ˝u névszói csoportok közül esetrag alapján külön megjelöli az alanyt és a tárgyat.

A kapott reprezentáció

Az elemzés végén az esetrag/névutó mint viszonyjelöl˝o révén a mondat igéjéhez ren-deljük a fej által reprezentált névszói csoportokat, kialakítva a modell által megkívánt függ˝oségi struktúrát.

Az ismertett részleges szintaktikai elemzés tehát alkalmas arra, hogy el˝oállítsa egy tagmondatnak a modell által megkívánt reprezentációját, mely szerint a tagmondat igéb˝ol és névszói csoport b˝ovítményekb˝ol áll, a b˝ovítmények reprezentációja pedig az esetrag, illetve az esetraggal megjelen˝o tartalmi elem, azaz konkrét szó. Az emlí-tett ‘Péternek meg kellett csinálnia a feladatot.’ tagmondat elemzése végén tehát el˝oáll a következ˝o kívánt reprezentáció : ‘ige=megcsinál -0=Péter-t=feladat’

2.2.3. Összefoglalás

Kutatásom további részéhez szükséges el˝ofeltétel volt egy nagy méret ˝u korpusznak a kidolgozott modell szerinti reprezentációja. Ennek el˝oállításához a fent ismertetett közelít˝o módszereket használtam. A szabályalapú tagmondatra bontás és részleges szintaktikai elemzés (igeazonosítás és névszói csoportok felismerése) révén viszony-lag kis er˝ofeszítéssel egy egyszer ˝u felépítés ˝u függ˝oségileg elemzett korpuszhoz jutot-tunk, mely a modellnek megfelel˝oen csak a mondat legfels˝o szintjén megjelen˝o depen-denciákat ábrázolja.

Nem állítom, hogy e nyelvi elemz˝o lépések megvalósítása kiemelked˝o min˝oség ˝u, ki-értékelésük is korlátozott mérték ˝u. Ezek részletes kidolgozása és tökéletesítése ön-magukban önálló dolgozatok témáját adhatják. Elegend˝o leszögezni, hogy a Magyar Nemzeti Szövegtár kialakított reprezentációja megfelel˝o alapot biztosít kutatásom to-vábbi lépéseihez, illetve eredményeim bemutatásához. Megjegyzend˝o, hogy a kapott korpusz kifejezetten nagy méret ˝u (147 millió szavas), ami lehet˝ové teszi a ritka jelen-ségek jellemzését is. A valódi, teljes függ˝oségileg elemzett korpuszok általában ennél két (vagy akár három) nagyságrenddel kisebbek.

A reprezentáció kialakításáról szóló2. tézisa 110. oldalon olvasható.

3. fejezet

Igei szerkezetek kinyerése

A dolgozat leghosszabb fejezetében folytatom az új tudományos eredmények ismer-tetését : a modell (2. fejezet) ismeretében a modell szerint reprezentált igei szerkezetek korpuszból való kinyerésér˝ol szólok. A 3.1. részben azt indoklom, hogy miért megfele-l˝o az idiomatikus b˝ovítmények helyett a lényeges b˝ovítményekkel foglalkozni. Bemu-tatok egy a reprezentációhoz illeszked˝o korpuszlekérdez˝o rendszert (3.2. rész), végül pedig a jellegzetes igei szerkezetek kinyerésére szolgáló algoritmust ismertetem (3.3.

rész). Ezen algoritmus alkalmazásáról (4.2. rész) és kiterjesztéseir˝ol (5. fejezet) lesz az-tán szó a dolgozat további részeiben.