• Nem Talált Eredményt

5. A pszicholingvisztikailag motivált elemző architektúrája 89

5.7. Korpuszmérések

5.7.2. Az elváló igekötő távolsága

Minden igének és igéből képzett szónak lehet vonzatkerete és igekötője. A több-féle lehetséges vonzatkeret mielőbbi egyértelműsítése csökkenti az állapotteret és az elemző működését gyorsítja. Ebben fontos szerepet játszik az igekötő és az infinitívuszi vonzat1, ugyanis jelenlétük ismerete vagy cáfolata különféle megszo-rításokra ad lehetőséget az ige vonzatkeretében. Az elvált igekötő jellemzően nagyon közel áll az igéjéhez, valamint az infinitívusz sokszor szerepel közvetle-nül az ige után. Az ilyen módon „későn érkező” elemek megtalálása az ablak segítségével viszont nagyban segíti a balról jobbra elemzést.

A mérések három különböző korpuszon történtek. Az MNSZ 2.0.3 és a Páz-mány Korpusz nyelvmodellként szolgált, mivel egyaránt vannak bennük szerkesz-tett és szerkesztetlen szövegek. Az InfoRádió Korpusz pedig ideális bemenetnek tekinthető, mivel csak jól szerkesztett rövidhíreket tartalmaz. Mindhárom kor-pusz sok hibás annotációt tartalmaz, ezért a rossz találatok automatikus kiszű-résére egy több mint 27 ezer igekötős igelemmát tartalmazó (manuálisan ellenőr-zött) listát (Kalivoda 2016) használtunk fel. A kapott találatok közül csak azokat őriztük meg, amelyek esetén az igekötő–ige pár a listában szereplő kombinációk egyike volt. Ezzel kiszűrődnek az olyan, listában nem szereplő, de amúgy helyes találatok is, mint például a neologizmusok, de a mérésben a pontosság sokkal fon-tosabb volt, mint a fedés. A lista továbbá arra is alkalmas volt, hogy segítségével eldönthető legyen, hogy az igekötő a finit vagy az infinit igéhez tartozik (esetleg tartozhat-e elvben mindkettőhöz). Minden esetben a két elem egymáshoz képesti pozíciója lett összehasonlítva, melyben a 0 pozíció az ige, és így a tőle közvetlenül jobbra álló elem a +1 pozícióban van.

1A dolgozatban az igekötő és az infinitívusz vonzatkeret-egyértelműsítő szerepe van a fókusz-ban, a további ígéretes jellemzők (speciális vonzatsorrend, lexikális kötöttség, stb.) felkutatása nyitott kérdés.

5.7.2.1. Finit igék posztverbális igekötői

Először a finit ige és a tőle jobbra került igekötője távolságát vizsgáltuk meg (lásd az 5.2. táblázat). Bár az ige utáni fő összetevők sorrendje a mondatban alapvetően szabad (É. Kiss 2007), az MNSZ2-n végzett mérések (Indig és Vadász 2016b; Kalivoda 2016, 2017) azt mutatták ki, hogy a posztverbális igekötők az esetek 99%-ában +1 vagy +2 pozícióban állnak. Ezzel szemben az InfoRádió Korpuszban ez az érték 100%, vagyis nincs benne példa olyan esetre, ahol egynél több szó áll a finit ige és annak posztverbális igekötője között. Ez igazolja azt a feltételezésünket, hogy a hivatalos, szerkesztett szövegek formája kötöttebb.

FIN +1 +2 +3 +4 +5 +6 +7

MNSZ2 7 527 308 163 993 5 126 1 193 267 101 27

InfoRádió 23 552 220 - - - -

-MNSZ2 (%) 97,778% 2,130% 0,066% 0,015% 0,003% 0,001% 3,5e-4%

InfoRádió (%) 99,999% 0,001% - - - -

-5.2. táblázat. A finit ige és posztverbális igekötőjének távolsága – szerkesztett szö-vegekben 99,999%-ban közvetlenül az ige után, szerkesztetlen szöszö-vegekben 99,9%-ban maximum két token távolságra helyezkedik el az igekötő.

Az eredmények tehát azt mutatják, hogy az ige utáni igekötő nagyon ritkán kerül 2 tokennél távolabbra az igéjétől, és az általunk javasolt elemzési ablakba éppen belefér. Az eltávolodott igekötőket tartalmazó, ritka példákról elmondha-tó, hogy saját szavakkal történő felidézésükkor az igekötő többnyire az eredeti mondatbeli helyénél közelebb kerül az igéhez. Az ilyen mondatokra példa az alábbi két mondat, amely az MNSZ2-ből származik:

(20) Azértmentemegy kicsit a pop zene feleel, mert szeretem a nívós, könnyed jó popzenét.

(21) 27 gyereket vitt egy feltehetően részeg buszsofőr Szentesen még csütörtö-kön egy sportrendezvény után vissza az iskolába.

Az igekötők típusainak tekintetében megfigyelhető, hogy a legtávolabb az egy-nél több szótagból álló igekötők kerülhetnek, mert határozószóként is funkcionál-nak, viszont pont ezért az ilyen igekötők nem befolyásolják számottevően az ige vonzatkeretét. Ebbe a csoportba tartozik például a haza és a vissza. Az ige közelségében leginkább rövid, prototipikus igekötők fedezhetők fel, amelyek el-oszlásukat tekintve hasonlóak1 (lásd az 5.3. táblázat2).

-2 0 +1 +2 +3

meg, ki, be, le, fel, föl, el, át, rá

0,49% 58,5% 40% 1% 0,01%

5.3. táblázat. Néhány gyakori igekötő távolsága a finit igétől – az igekötők 98,5%-a 98,5%-az igén v98,5%-agy közvetlenül után98,5%-a áll, cs98,5%-ak 1,01% távolodik el jobb98,5%-an jobb old98,5%-alr98,5%-a (MNSZ2).

5.7.2.2. Az infinitívusz és a posztverbális igekötője

Az infinitívusszal kapcsolatos mérések a Pázmány Korpuszon történtek, mely webalapú korpusz révén még az MNSZ2-nél is több szerkesztetlen szöveget tar-talmaz (a kommentkorpusz mérete 2 millió token). Az eredmények mégis azt mutatják, hogy az igekötő az esetek 86%-ában közvetlenül az infinit igealak után áll (lásd az 5.4. táblázatot).

Az eredményekből láthatjuk, hogy a kiugróan gyakori +1 pozícióban még sok prototipikus igekötőt találunk, pl. iparkodott ellentétet mutatni ki, javasolt a lapokat lazán helyezni el. A +2 pozícióról elmondható, hogy az infinitívusz és annak igekötője között csak finit ige állhat, és – bár van példa prototipikus igekö-tőre, pl. éppfoglalniakartamlea buszt– nagyobb arányban jelennek meg a nem

1A preverbális igekötők pozíció szerinti eloszlását lásd (Kalivoda 2016).

2Az 5.3. táblázatban azért nem szerepel a -1-es pozíció, mert a magyar helyesírás sze-rint egy egytagú igekötő nem előzheti meg közvetlenül az igét, amelyhez tartozik. Ebben az esetben egybeírandó az igével (0. pozíció). Az igét közvetlenül megelőző pozícióban szereplő igekötő általában egy másik igei elem (pl. az ige utáni infinitívusz) igekötője, és csak elírás eredményeképpen lehet az igéé.

INF [...] IK db. %

össz. 717

+1 619 86,3

+2 52 7,3

+3 35 4,9

>+3 11 1,5

5.4. táblázat. Az infinitívusz és a tőle jobbra elhelyezkedő igekötőjének távol-sága – 93,6%-ban maximum két token van köztük.

FIN [...] INF db. %

össz. 727 562

+1 652 778 89,7

+2 47 669 6,6

>+2 27 115 3,7 5.5. táblázat. A finit ige és a tőle jobb-ra elhelyezkedő infinitívuszi vonzatá-nak távolsága – 96,3%-ban maximum két token van köztük.

prototipikus, több szótagú igekötők (pl. már indulni akartam vissza). A na-gyon ritka +3 pozícióban csak ez utóbbiak állnak, pl. de márjönnikellett sajnos haza. A +4 és +5 pozícióra mindössze 15 példát találtunk, ami statisztikailag irreleváns mennyiség. Az itt álló igekötők nem befolyásolják az ige vonzatkeretét (csak az ige által kifejezett mozgás irányát módosítják), pl. vinni kell a kame-rát el, menekülni akartak a városon keresztül vissza. Megmértük továbbá az infinitívusz igétől való távolságát is. A 5.5. táblázatban látható, hogy az esetek 89%-ában az infinitívusz közvetlenül a finit ige után áll, 6,5%-ban egy szót enged maga elé. Tehát az infinitívusz többnyire benne van a főige mellett az ablakban, és felhasználható a vonzatkeret egyértelműsítésére.

A mérések eredményéből tehát látható, hogy a balról jobbra elemzés során a finit igén állva az ablakában a legtöbb esetben benne van a posztverbális igekötő és az infinitívuszi vonzat, mely ezáltal segíteni tudja a vonzatkeretének egyértel-műsítését. Hasonlóan az infinitívusznál, melynek igekötőjére és infinitívuszi von-zatára is áll az előbbi megállapítás. A fenti mérések alapján létrehozottVFrame keresőeljárást, amely az igekötők igei elemekhez kapcsolásával segít előhívni a mondatban előforduló finit és infinit igék megfelelő vonzatkeretét, az 5.9.2. feje-zetben ismertetem.