• Nem Talált Eredményt

A Magyar Lírakorpusz annotációs sémájának alapelvei

A lírai személyjelölés konstrukcióinak annotálási elveiről *

3. A Magyar Lírakorpusz annotációs sémájának alapelvei

A kézi annotálás kidolgozott sémájának a középpontjában az igék és bővítménye-ik annotálása áll, amelyek alapvető szerepet játszanak a személyviszonyok meg-konstruálásában. A kézi annotálást kiegészíti a szavak lemmájának, szófajának és morfoszintaktikai tulajdonságainak az automatikus annotálása, amelyet – ahogy már szó volt róla – a Nyelvtudományi Intézetben fejlesztett e-magyar elemzőlánc segítségével végzünk el (Váradi–Simon–Sass et al. 2017; Indig–Sass–Simon et. al.

2019; Simon–Indig–Kalivoda et al. 2020). A manuálisan ellenőrzött automatikus

annotációnak köszönhetően kézzel csupán az igei szerkezetek elemei közötti szintaktikai viszonyokat kell annotálni. Az igei szerkezetek elemei közötti vi-szonyokat többnyire a függőségi elemzésekben megszokott módon annotáljuk.

A függőségi elemzés az összetevős elemzés mellett a szintaktikai szerkezetek korpuszbeli annotálásának a legtipikusabb módja. A függőségi típusú mondat-elemzés előnye, hogy összhangba hozható mind a szintaktikai szerkezetek auto-matikus elemzésére törekvő számítógépes nyelvészeti eljárásokkal, mind pedig a kutatás elméleti keretét adó kognitív nyelvészeti megközelítéssel (lásd Tolcsvai Nagy szerk. 2017). Például az Imrényi (2013, 2017) által kidolgozott, a magyar mondat funkcionális kognitív nyelvészeti leírását adó többdimenziós viszony-hálózati modell D1 dimenziójában függőségi viszonyokkal történik a mondat igéje és az ige által kifejezett esemény szereplőire és körülményeire utaló nyelvi elemek közötti viszonyok megragadása.

A függőségi elemzés eredménye minden elemzett mondat vagy igei szerkezet esetében egy függőségi fa. A függőségi fa olyan gráf, amelynek csomópontjai a szerkezetet alkotó szavak, gyökércsomópontja, azaz a gráf legfelső szintjén álló csomópont pedig alapesetben a mondat igéje. A csomópontok közötti élek a szavak közötti függőségi viszonyokat reprezentálják. Ezek a függőségi viszo-nyok alaptag (head) és alárendelt tag (dependent) viszonyaként ragadhatók meg.

A függőségi fa azon csomópontjai, amelyek nem a függőségi fa legfelső vagy legalsó szintjén vannak, egyszerre alaptagok és alárendelt tagok. Például függő-ségi megközelítésben az (1) mondat gyökércsomópontja az elment ige. A lány és a boltba főnevek, amelyek a mondatban alanyi és határozói bővítményként funkcionálnak, az ige közvetlen alárendeltjei. Ugyanakkor a lány főnév alaptagja a neki közvetlenül alárendelt a névelőnek és legfiatalabb melléknévnek, a boltba főnév pedig úgyszintén alaptagja az előtte álló névelőnek. A mondat függőségi elemzését az 1. ábra mutatja be.

(1) A legfiatalabb lány elment a boltba.

elment

lány boltba a legfiatalabb a

1. ábra

Bár a függőségi elemzésekben a csomópontokat általában szavak adják, a ki-dolgozott annotációs sémában bizonyos esetekben lehetővé tettük, hogy a cso-mópontot egy több, egymás mellett elhelyezkedő szóból álló szerkezet alkossa (névutós szerkezetek, ige + igekötő szerkezetek, vokatívuszok).

A kézi annotációs séma kialakítása során azt az elvet követtük, hogy a füg-gőségi fa csomópontjai csak a mondatban ténylegesen megjelenő szavak vagy szerkezetek lehetnek. Azaz a mondatokat nem egészítettük ki testetlen zéró névmásokkal, zéró létigékkel (= zéró kopulákkal), illetve az igét nem tartalmazó elliptikus szerkezeteket sem egészítettük ki a hiányzó igével (ezt az eljárást követi például Vadász 2020). Ugyanakkor mind az implicit argumentumok, mind a ko-pulát nem tartalmazó névszói állítmányú szerkezetek, mind pedig az elliptikus szerkezetek annotálását beépítettük az annotációs sémába.

A kézi annotáció során alapvetően kétféle információt annotálunk: egyrészt az igei szerkezetek egy vagy több szóból álló, különböző szintaktikai és szeman-tikai szerepű egységeit, másrészt az egységek közötti viszonyokat. Az annotálás során alkalmazott címkék ennélfogva két nagy csoportra oszthatók: azok vagy egy szóra, illetve több szóból álló szerkezetre vonatkoznak, vagy pedig a szavak, szerkezetek közötti viszonyra. Az alkalmazott címkékhez bizonyos esetekben további információkat is hozzárendelünk. A szavak, szerkezetek annotálására és a viszonyok annotálására bevezetett címkék az esetek jelentős részében re-dundánsak. Például az igekötő Prev címkét kap, míg az ige és az igekötő közötti viszony – amely a Webanno felületén egy, az ige címkéjétől az igekötő címkéjére mutató nyílként jelenik meg – úgyszintén kap egy prev címkét. A viszonyoknak a redundáns felcímkézése ugyanakkor megkönnyíti az annotálás, illetve az an-notációk ellenőrzése során a felcímkézett szerkezetek áttekintését, az esetleges hibák kiszűrését, valamint a későbbiekben egyszerűsíti az annotációkra vonat-kozó szkriptek megírását is.

Az alább bemutatandó annotációs sémát több fázisban dolgoztuk ki, az egyes annotációs fázisokat pedig egy tizenhat szövegből álló próbakorpusz annotálá-sával teszteltük. A próbakorpusz tizenhárom, a huszadik században keletkezett verset, valamint három dalszöveget tartalmazott. A próbaannotálásokban a ta-nulmány szerzői mellett a Stíluskutató csoport további öt tagja vett részt, akik nyelvészettel foglalkozó egyetemi oktatók vagy PhD-hallgatók.3 A WebAnno felülete lehetővé tette, hogy a különböző annotátorok verzióit egymás mellé he-lyezve az annotációs séma problémás pontjait észleljük, és így a sémát a megfelelő

3 A tanulmány szerzői mellett a Stíluskutató csoport következő tagjai vettek részt a próbakorpusz annotálásában: Ballagó Júlia, Kuna Ágnes, Pap Andrea, Pethő József, Sólyom Réka.

irányba módosítsuk. Az annotációs séma kialakítása során a Stíluskutató csoport számos megbeszélést is tartott, amelyek során az annotátorok jelezték a séma félreérthető vagy nehezebben kivitelezhető eljárásait, illetve sok esetben meg-oldási javaslatokat is tettek. Ezeket a visszajelzéseket, javaslatokat úgyszintén figyelembe vettük az annotációs séma véglegesítésekor.