• Nem Talált Eredményt

1. BEVEZETÉS

1.2. Alapfogalmak, alkalmazott módszerek, elméleti háttér

1.2.4. Korpusznyelvészeti módszerek

1.2.4.2. A feldolgozás módja

A korpusznyelvészetben a korpusz rögzítése után következő munkafázis az annotálás. A betűhív rögzítés miatt a kézi annotálás jöhetett volna szóba, ehe-lyett azonban egy ún. konkordanciaprogram segítségével fogtam hozzá a névszóinflexiós adatok kiválogatásához, ami voltaképpen felfogható a kézi an-notáció első lépéseként is. A konkordanciaprogramok olyan számítógépes al-kalmazások, amelyek a szövegfeldolgozás különböző feladatait képesek végre-hajtani. Az elektronikus formában tárolt szövegállományok teljes konkordanciá-jától az egy szóra, szórészletre, kifejezésre redukált keresésig sokféle utasítást képesek végrehajtani, a műveletek eredményeit pedig a felhasználó által kívánt formában – pl. előre meghatározott méretű szövegkörnyezettel együtt – meg tudják jeleníteni (SZIRMAI 2005: 102–29). A rendelkezésre álló szoftverek közül R.J.C.WATT Concordance c. programjára esett a választásom23.

4. ábra: R. J. C. Watt Concordance c. programjának adatai

Ez a számítógépes alkalmazás a skóciai dundee-i egyetem (University of Dundee) tanára által szövegfeldolgozásra kifejlesztett eszköz. Rendkívül széles körben alkalmazható nyelvészeti, irodalomtudományi kutatásokban, nyelvtaní-tásban, sőt igazságügyi nyelvészeti célokra is. A program elvileg bármennyi ún.

23 A program kipróbálható változata letölthető a http://www.concordancesoftware.co.uk internet-címről. Az általam használt verzió száma: 3.2.

plain text [egyszerű szöveg] formátumban tárolt fájl elemzésére képes. Az alábbi ábra a fájlok programba töltésének a procedúráját ábrázolja.

5. ábra: A konkordanciakészítés főmenüje

A betöltött fájlokon alapvetően kétféle műveletet végeztethetünk el: teljes konkordancia és ún. fast concordance [gyors konkordancia] elkészítése, ez utób-bi különböző (akár hatféle) keresési feltételekkel elvégzett szűrt listázást jelent.

Jelen vizsgálatban a névszóinflexiós alakok kiszűrése volt a cél. Mivel az inf-lexiós szuffixumok a névszóalakok végén találhatók, ezért olyan keresési felté-telt kellett megadni, amellyel szóvégekre kereshettem. Az Pick List [szűrőlista]

opciót választva megadhatjuk azokat a karakterláncokat (angol szakkifejezéssel:

stringeket), amelyeknek a listáját elő akarjuk állítani. Lehetőség van helyettesítő karakterek (ún. wildcardok) használatára. Ha a Pick Listbe a következő keresési kifejezést írjuk: „Chri}tus”, akkor a program előállítja a betűről betűre megegye-ző szóalakok listáját szövegkörnyezetükkel együtt (tehát pl. a „chri}tus”,

„Christus” stb. alakokat nem kapjuk meg, mert egy-egy karakterben eltérnek a megadott keresőszótól). Az alábbi ábra ennek a keresésnek az eredményét, pon-tosabban annak egy részletét ábrázolja:

6. ábra: Egy egyszerű konkordancia

Ha a keresőszót kiegészítjük a tetszőleges hosszúságú stringet helyettesítő

„*” jellel („Chri}tus*”), akkor megkaphatjuk a „Chri}tus” karaktersorozat által jelölt összes toldalékos alakot (pl. a „Chri}tust”, „Chri}tustól”, „Chri}tusnak”,

„Chri}tusi” stb. alakokat), de nem kapjuk meg a „chri}tusi”, „Christusi” stb. alako-kat. Ha toldalékokra keresünk, akkor fordítva kell eljárnunk, a helyettesítő ka-raktert a keresőszó elejére kell írnunk. A következő keresőkérdés: „*ban” kilis-tázza az összes „ban” karakterláncra végződő szóalakot a kontextusával együtt (pl. a „Chri}tusban”, „házban” stb. alakokat), de nem kapjuk meg a „Chri}tusbaň”,

„Chri}tusba”, „házbaň”, „házba” stb. alakokat. A program használatakor ezért ügyelnem kellett arra, hogy ne hagyjak figyelmen kívül egyetlen ortográfiai variánst sem, mert különben adatokat vesztettem volna.

Az inflexiós alakok megkeresése tehát a keresőszók megfelelő összeállításá-val kezdődött. Először a ragos alakokat gyűjtöttem össze. Minél hosszabb karak-terláncra kell keresni, annál kevesebb hamis adatot kapunk a művelet eredmé-nyeként, ezért a testesebb ragokkal célszerű kezdeni. Ha pl. az accusativusi ala-kokat keressük, akkor nem tehetünk mást, mint átnézzük az összes t-re végződő szóalakot. Ám ekkor még szép számmal maradtak tárgyragos alakok a korpusz-ban, hiszen előfordul, hogy a szóvégi t helyett th áll: pl. „Chri}tu}th”. Tekintettel kell lennünk arra is, hogy az is partikulát a korszakban gyakran egybeírják az előtte álló szóval: pl. „Chri}tu}tis”, „Chri}tu}this” stb. Továbbá mind az i, mind az s jelölésére többféle megoldás használatos: pl. „Chri}tu}tys”, „Chri}tu}tijs”,

„Chri}tusti}” stb. Ezért célszerű a következő keresőszavakat megadni: „*t”,

„*t?”, „*t??”, „*t???”, azaz összegyűjteni az összes alakot, amelyben a karakter-lánc vagy t-re végződik, vagy legfeljebb három egyéb karakter áll utána (a „?”

helyettesítő karakter egyetlen tetszőleges betűjegyet jelöl). Sajnos ennek ered-ményeképpen nagy számban kapunk hamis adatokat (pl. a „lát”, „mellett”, „öt”,

„háta”, „hatol”, „hatvan” stb. alakokat), ám biztosak lehetünk abban, hogy az összes accusativusi alak is szerepel a listában. Ha a tárgyragos alakok keresését utoljára végezzük el, akkor a korábban már összegyűjtött, t-re végződő inflexiós adatokat (pl. az -ÉRT ragos alakokat) kiszűrhetjük a listából. Az accusativusi alakok összegyűjtéséhez így is több tízezer szóalakot kellett kézzel szortírozni.

Az eredményül kapott 16 532 adat (kontextussal együtt) mégis megérte a fárad-ságot, hisz hagyományos adatgyűjtéssel (pl. cédulázással) még egy kisebb kuta-tócsoportnak is hetekbe-hónapokba telne egy ilyen munka elvégzése. Az alábbi ábra az accusativusragos alakokat kilistázó konkordancia egy részletét mutatja:

az öt adatban előforduló boßßut alak példáit a szövegkörnyezetükkel és lelő-helyükkel, továbbá a külön megnyíló ablakban az egyik példa tágabb kontextu-sával:

7. ábra: Szóalak a szövegkörnyezetével

Más toldalékok esetében jóval könnyebb a keresés. Pl. a KÉPPEN (>-KÉPPEN) elem keresőszavai a következők voltak: „*k*p?”, „*k*p??”,

„*k*p???”, „*k*p????”, „*k*p?????”, „*k*p??????”. A rag ortográfiailag inva-riáns elemei a k és a p betűjegyek. A k helyett előfordulhatna ugyan c, de egy gyors kereséssel („*c*p*” – a 90 találatot néhány perc alatt ellenőriztem) meg-győződhetünk róla, hogy a KÉPPEN (>-KÉPPEN) elemnek ilyen alakja nincs a

korpuszban. A k és p közti „*” azért volt szükséges, mert a magánhangzók jelö-lésére sokféle betűt és betűkombinációt használtak, így lehetett biztosítani, hogy pl. az í-ző alakok ne maradjanak ki. A p utáni kérdőjelek tetszőleges karaktere-ket jelölnek, minden esetben annyit, ahány helyettesítő karakter szerepel a kere-sőkérdésben. A hat kérdőjeles alakok ilyesfélék lehetnek: „azonkeppennijs”, ahol az első p után még hatkarakternyi string található. A fenti keresésre 1109 találatot kaptam, amelyből mindössze 209 volt hamis adat, így el tudtam különí-teni a 900 KÉPPEN (>-KÉPPEN) elemet tartalmazó szóalakot.

Ilyenformán kellett minden ragnak megkeresni az ortográfiailag invaráns elemeit, és hasonlóan körültekintő módon elvégezni a keresést. Ezután követke-zett a jeles alakok kiválogatása. Mivel a ragos alakokat már összegyűjtöttem, először célszerűnek látszott ezek megszűrése. Az adott rag keresőkérdését kom-binálva a jel keresőszavával, megkaptam azt a listát, amely még tartalmazhatott hamis (nem névszójeles) adatokat, ezért azokat – a ragokhoz hasonlóan – utólag kellett kiszűrni. Pl. a „*b?l”, „*b??l”, „*b?l?”, „*b??l?”, „*b?l??”, „*b??l??”,

„*b?l???”, „*b??l???” keresőszavakat (az elativusi rag keresőkérdését) ki kellett egészíteni a többesjel, a középfokjel, a birtokos személyjelek stb. keresőkérdése-ivel, hogy megkapjam a jeles-ragos alakokat. A többesjel keresőszavával kiegé-szített elativusi keresőkérdést az alábbi ábrán láthatjuk.

8. ábra: Keresőszavak

A többesjel és a rag között szerepelhet még a birtokjel, valamint annak bir-toktöbbesítő jeles alakja, de mivel azokat úgyis külön kereséssel gyűjtöttem

össze, így nem maradtak ki a többesjeles-birtokjeles-(birtoktöbbesítős)-ragos alakok sem. Ezen keresések esetében is előfordulhatnak hamis adatok, pl. a töb-besjel keresésekor a k-ra végződő elativusragos szavak, ezek kiszűrése után azonban előállíthattam a jeles-ragos szóalakok listáját.

Ezután már csak a testes rag nélküli jeles adatokat kellett összegyűjteni. Mi-vel ez esetben ugyanúgy szóvégi helyzetű szuffixumokat kerestem, mint a ragos alakok gyűjtésekor, ezért hasonló procedúrát kellett megvalósítani, mint azok esetében. A keresőkérdéseket a jeles-ragos alakok kiválogatásakor már összeállí-tottam. A hamis adatok kiszűrése után előállíthattam a korpusz névszóinflexiós alakjainak teljes listáját.

A hosszadalmas keresőprocedúra megérte a fáradságot: 31 933 jeles és 54 916 ragos alak gyűlt össze, amelyekből végül összesen 49 007 adat került be a névszóinflexiós változókat bemutató adattárba. (Az összes adat megtalálható a korpusz internetes változatának honlapján. A vizsgálat névszóinflexiós változói-nak kiválasztását pedig l. 2.) A fáradságos munka során jelentős ösztönzést je-lentett, hogy nem csupán jelen dolgozat céljaira gyűjtöttem össze az inflexiós alakokat, hanem megtettem az első nagyobb lépést a korpusz annotálásában: a gyűjtéssel voltaképpen a névszóalakok címkézése (taggingje) zajlott le, hisz a kész lista alapján könnyen (automatizálható módon) annotálhatóvá vált a gyűj-teményem, az ily módon kiegészített korpusz pedig további kutatási feladatok megoldására is alkalmas lesz.

2. A VIZSGÁLT NÉVSZÓINFLEXIÓS VÁLTOZÓK