• Nem Talált Eredményt

A LEXIKAI KOHÉZIÓ KUTATÁSA

EszKÖzÖKKEl tÁ mogatott lExiK ai Kohéziós vizsgÁl ata

3. A LEXIKAI KOHÉZIÓ KUTATÁSA

A szöveg teljességét középpontba helyező és a nyelvi szerkezeteken túlmutató vizsgálatok fókuszában a szövegek szerveződésének okai és kritériumai, illetve a szövegek használatának módja és célja állnak. A szövegközpontú vizsgálatok közül a szövegen belüli szemantikai jellegű összefüggés-kapcsolatokat a kohézi-ókutatás vizsgálja (Harweg 1968, Halliday és Hasan 1976, Gutwinski 1976, Hasan 1984, Halliday 1985), ezen belül a lexikai kohéziós vizsgálatok középpontjában a lexikai ismétlődés szövegszervező funkciója, a szöveg szempontjából releváns lexikai elemek ismétlődése áll (Hoey 1991, Károly 2002).

A Magyar Lexikai Kohéziós Projekt elméleti kiindulópontjául szolgáló Károly-taxonómia (2002: 95–107) kilenc lexikai kohéziós kategóriát különböztet meg a szövegfelszín szintaktikai-szemantikai hálójának vizsgálatakor. Károly a kohéziós kapcsolatokat két alapvető típusra osztja: a lexikai és a szövegalapú (instantial relation) relációkra. A lexikai alapú relációk esetében különbséget tesz azon esetek között, (i) amikor a lexikai egység változatlan formában ismétlődik (repetition), illetve (ii) amikor a lexikai egységnek csak az információtartalma ismétlődik meg teljes egészében vagy részben egy vele szemantikai kapcsolat-ban álló lexikai egység formájákapcsolat-ban (synonymy, opposite, hyponymy, meronymy).

Károly az ismétlés, a szinonima és az ellentét jellegét tekintve különbséget tesz egyszerű és derivációs alakok között. Derivációról akkor beszél, ha a lexikai egység képzett szó formájában ismétlődik.

3.1. A számítógépes eszközökkel támogatott lexikai kohéziókutatás A lexikai kohézió vizsgálata iránti növekvő érdeklődés következtében

megjelen-tek a hagyományos módszerek mellett a témakörben folytatott korpuszalapú kutatások is. Példa erre többek között a Benjamins Kiadó gondozásában kiadott (Flowerdew és Mahlberg 2006) Lexical Cohesion and Corpus Lingistics hat tanul-mánya, amelyek közül egy a kohézió és a retorikai struktúra kapcsolatával, három a lexikai kohézió hangzó szövegekben történő vizsgálatával, kettő pedig a tanulói korpuszokban megvalósuló realizációjával foglalkozik.

További példa a korpuszalapú kutatások terjedésére a már korábban említett Magyar Lexikai Kohéziós Projekt (Seidl-Péch 2012), amelynek célkitűzése az auten-tikus magyar és a célnyelvi magyar szövegek lexikai kohéziós mintázatának leírása, és annak feltárása, hogy a fordított szövegekre jellemző kohéziós eszközhasználat valóban különbözik-e az autentikus szövegprodukcióra jellemző kohéziós min-tázattól. A vizsgálat a kontrasztív elemzés eredményeinek általánosíthatósága érdekében különböző szövegtípusú szövegekre terjedt ki, és a célnyelvi magyar alkorpusz esetében különböző forrásnyelveket (angol, német, francia, olasz, latin, görög) reprezentált. A szövegtípusok kommunikációs színterei szerint a vizsgált

szövegek közéleti (hivatalos), egyházi, tudományos és szépirodalmi szövegek, a hordozó közeg szerint pedig írásbeli megnyilatkozások. A kutatott korpuszban (közel 4 000 000 token, lásd 1. táblázat) összegyűjtött szövegek a szövegproduk-cióban résztvevők száma és egymáshoz való viszonya alapján monologikusak, míg kommunikációs funkciójuk szerint elbeszélő, leíró és érvelő szövegek.

1. táblázat. A Magyar Lexikai Kohéziós Projekt vizsgálati korpuszának összetétele Autentikus szöveg Tokenszám Fordított szöveg Tokenszám

Közéleti (EU) 249 315 közéleti (EU) 249 420

angol 249 420

Szépirodalmi 255 699 szépirodalmi 1 070 126

angol 278 909

francia 257 731

német 260 803

olasz 272 683

Tudományos 257 442 tudományos 853 869

angol 187 334

francia 280 259

német 257 079

olasz 129 197

Vallási 245 009 vallási 873 597

angol 169 363

német 259 514

latin 269 713

görög 175 007

Összesen 1 007 465 összesen 3 047 012

A számítógépes eszközökkel (lásd 2.2.) támogatott Magyar Lexikai Kohéziós Projekt esetében a lexikai kohéziós relációk annotálása már nemcsak a hagyo-mányos kohéziókutatás gyakorlatában vizsgált rövidebb (kb. 1 oldalas) szövegek esetében volt megvalósítható, hanem a mondathatárokon túlmutató szemantikai kapcsolatokat nagyobb terjedelmű műveknél (például regények) is lehet vizsgálni.

Míg a számítógéppel támogatott kohéziókutatás kapcsán egyrészt a terjedelmi keretek kitágítása adta előnyökről és a gépi annotálás következetességéről és pontosságáról lehet szót ejteni, másrészről meg kell említeni az automatizálásból

eredő nehézségeket, veszteségeket is, bár ezek a veszteségek nem veszélyeztetik az eredményekből levonható következtetések validitását.

3.2. Az automatizált lexikai kohéziókutatás hátrányai

A gépi adatbázisok és algoritmusok esetében számolnunk kell azzal a ténnyel, hogy a számítógépes program csak azokat az elemeket képes az adatbázisban megtalálni, amelyeket az ontológiát építő személy korábban definiált, illetve a lexikai kapcsolatok esetében is csak a tárolt kapcsolati címkéket tudja a felismert lexikai elemekhez rendelni. Ennek következtében a gépi módszer az esetlegesen hiányzó lexikai elemek azonosítására még akkor sem képes, ha a szöveg futtatása során érzékeli ezen elemek meglétét, illetve nem képes a humán elemzőhöz hason-lóan „mérlegelni” egy-egy kapcsolati címke információs tartalmának megfelelő-ségét sem. Az elemzések során realizált ilyen jellegű „hibás” annotációt, illetve egyes lexikai kapcsolatok esetében a címkézés elmulasztását a program viszont az egész projekt során következetesen alkalmazza. A gépi „zaj” a későbbi kutatások számára részben csökkenthető, ha a humán elemző a szoftvert átprogramozza és/

vagy az adatbázist kiegészíti és/vagy javítja, de ez a „zaj” a háttérinformációkat szolgáltató adatok óriási mennyisége miatt szinte soha nem redukálható nullára.

A gyakorlat ugyanakkor azt mutatja, hogy a vizsgált korpuszok nagysága sokkal kedvezőbben befolyásolja az eredmények alakulását, mint amennyire a hibás találatok ehhez viszonyítottan csekély száma torzítja.

A Magyar Lexikai Kohéziós Projekt esetében alkalmazott gépi elemzés egyik vesztesége, hogy a szemantikai relációk találati listájában sem vizuálisan, sem a statisztikában nem különülnek el egymástól a deriváció nélküli és a derivációs szemantikai kapcsolatok (1. ábra).

1. ábra. Kapcsolatok a Szövegtipológiai sajátságok érvényesülése a mondatban című dokumentumból

<edge type=”synonyme” from=”összefüggéseiről” to=”viszony”/>

<edge type=”synonyme” from=”modell” to=”mintájára”/>

<edge type=”synonyme” from=”tárgy” to=”téma”/>

<edge type=”synonyme” from=”elgondolásuk” to=”elképzelésük”/>

<edge type=”hyponym” from=”kés” to=”fegyvert”/>

<edge type=”hyponym” from=”munka” to=”tevékenységet”/>

<edge type=”hyponym” from=”kérdés” to=”mondatoknak”/>

<edge type=”hyponym” from=”kutatásainak” to=”vizsgálataihoz”/>

<edge type=”meronym” from=”könyv” to=”szövegének”/>

<edge type=”meronym” from=”fejezetet” to=”szövegek”/>

<edge type=”meronym” from=”elem” to=”szerkezete”/>

<edge type=”meronym” from=”összetevők” to=”mondatokat”/>

Az elemzési idő lerövidítése és a program megírásának egyszerűsítése azért kerülhetett a derivációs alakok kiszűrésével szemben előtérbe, mivel a Magyar Lexikai Kohéziós Projekt esetében nem jelentett a derivációs kapcsolatok elkü-lönítése a kutatás számára elengedhetetlen feltételt, és ennek hiánya a kutatás célkitűzését, azaz a célnyelvi szövegek esetében tapasztalható lexikai kohéziós kapcsolatok eltolódásának feltárását sem akadályozta. Nem zárható ki azonban, hogy egy későbbi kutatás számára érdekes adatokat szolgáltathat a deriváció nélküli és a derivációs szemantikai kapcsolatok gyakoriságának és konkrét reali-zációjának szétválasztása.

A gépi elemzés további vesztesége, hogy nem képes azonosítani a Károly-taxonómia szövegalapú (instantial relation) relációit, hiszen ezek az adott lexikai elemek között csak az adott szövegkörnyezet esetében jellemző szemantikai kap-csolatok nem tárolhatók ontológiában, sem más adatbázisban, meglétüket csak a humán elemző intelligenciája és/vagy világról alkotott tudása képes feltárni.

A hagyományos és az automatizált kohéziókutatás esetében különbséget jelent továbbá a mondathatárokon túlmutató szemantikai relációk feltárásánál az egymással kapcsolatban álló elemek egymástól való távolságának maximalizálása.

Míg a papír alapú, hagyományos módszer a szövegen (legfeljebb egy-két oldal) belüli összes ilyen relációt figyelembe veszi, addig az akár teljes regényeket is elemző gépi módszer számára praktikussági okokból mindenképpen rövidebb egységeket kellett definiálni. Bár a lexikai elemek közötti szemantikai kötelékek nemcsak az egymáshoz közeli, hanem az egymástól távoli mondatokat is jellemzik (Halliday és Hasan 1976), a rendelkezésre álló gépi kapacitás szűkössége miatt cél-szerű volt a vizsgálatot a korpusznyelvészeti kutatások során gyakran alkalmazott, bekezdésen belüli kapcsolatokra redukálni. A Magyar Lexikai Kohéziós Projekt a bekezdéshatárokon elhelyezkedő kötelékeket figyelmen kívül hagyta, amely kötelékek száma elsősorban az egyes szövegek minőségének meghatározásánál játszik fontos szerepet (Károly 2007), ami nem tartozott a jelen kutatás fókuszába, bár e kötelékek feltárása egy későbbi vizsgálat számára további érdekes adalékok-kal szolgálhat.

4. GÉPI FORDÍTÁSOK GÉPI ESZKÖZÖKKEL