• Nem Talált Eredményt

A korpusz létrehozása

In document kicsinyítés és nagyítás (Pldal 64-67)

A korpusz létrehozásának elméleti kérdései

A jövőbeli kutatáshoz létrehoztam egy orosz szépirodalmi szövegekből álló korpuszt. A munka során felmerülő elméleti és gyakorlati dilem-mákat, valamint a korpusz paramétereit jelen fejezet tárgyalja.

Az ún. szövegkorpuszok a nyelvtechnológiában kiemelkedő sze-rephez jutnak, hiszen kutatási célra való alkalmazásuk lehetővé teszi nagy mennyiségű szöveg feldolgozását és az adott nyelvi jelenség ez általi kimerítő kvalitatív és kvantitatív vizsgálatát is. Mint az alkal-mazott nyelvészeti kutatások egyik legfontosabb vizsgálati eszköze, a korpuszok legtöbbször digitalizált formában érhetőek el, ami a gépi elemzés szempontjából meghatározó kritérium. Emellett azokat olyan adatok tárházainak tekinthetjük, amiket nem a nyelvész hozott létre az adott vizsgálat számára, hanem valós szövegek példáiként állnak ren-delkezésünkre (vö. McEnery 2005. 449). Az adatbázisok elérhetősége és kezelhetősége szempontjából nem tekinthető utolsó kritériumnak azok digitalizált formája. A szövegkorpuszoknak, mint a kutatás és fej-lesztés fontos eszközeinek a legkülönbözőbb elvárásoknak kell meg-felelniük, mint pl. a reprezentativitás, a teljesség vagy a feldolgozott anyag strukturáltsága (Баранов 2007. 113).

Bizonyos témában és területen született nyelvészeti munkák eseté-ben nélkülözhetetlen a korpuszok használata. Az adott kutatás céljától és kivitelezésének mibenlététől függően a szövegkorpuszokat előze-tesen valamilyen manuális vagy automatikus módszerrel annotálják, vagyis különböző jelekkel (nyelvtechnológiai terminussal tag) látják el, aminek sajátságait szintén a korpusz későbbi felhasználása határoz meg (Szabó 2017).

Kategorizálás szempontjából a nyelvi korpuszokat többféleképpen rendezhetjük csoportokba. Habár jelen dolgozatnak nem célja az osztá-lyozás ismertetése, a létrehozott korpuszról ilyen szempontból a követ-kező megállapításokat tehetjük: az orosz nyelvű szépirodalmi szövegek egy írott nyelvi korpuszt alkotnak, mely egynyelvű, ezen felül speciális

nyíri zsófi – egy orosz nyelvű emóció- és szentimentszótár, valamint egy orosz nyelvű szépirodalmi korpusz létrehozásának tapasztalatai céllal készült egy bizonyos nyelvi jelenség szinkrón vizsgálatára. Emel-lett az adatbázis szövegműfaj-specifikus, hiszen csak szépirodalmi szö-vegeket tartalmaz. A korpuszok tipizálásának egy másik fontos meg-közelítési módjáról, mégpedig a szövegek annotálásának mibenlétéről sem feledkezhetünk meg, hiszen a korpuszokat más szempontból azok annotációinak típusa alapján is lehet kategorizálni. A korpuszról ebből a szempontból l. 5.2.

A korpusz létrehozásának a menete

A szövegkorpusz létrehozásának első lépése azoknak a forrásoknak a megkeresése volt, amik szabadon hozzáférhető szépirodalmi szövege-ket tartalmaznak, valamint lehetővé teszik azok automatikus módszer-rel való gyűjtését. A kritériumok alapján (l. lentebb, 5.2.2) a Royallib.

com honlapot választottam, ahol többek között orosz szépirodalmi műveket gyűjtöttek össze a honlap készítői.

A szövegek kiválasztásánál kijelöltem a korpusz paramétereit, amely során fő kiindulási pontnak a történelmi és kultúrtörténeti szempont-ból is jelentős hatással bíró, 1917-es orosz forradalmat tettem meg.

A felvetett hipotézis szerint az eseményre a szépirodalomban is reflek-táltak, és ezek a hatások szöveg szinten is kimutathatóak. Figyelembe véve a forradalom és az ennek hatására született művek közötti idő-rést, a szövegek határának az 1895–1955 közé eső időszakot válasz-tottam. Ezt a későbbiekben további három periódusra osztottam: az 1. korszakot 1895–1914, a 2. korszakot 1914–1930, a 3. korszakot pedig 1930–1955 közé helyeztem.

Ezt követően kiválasztottam azokat az írókat, akik e korszakok vala-melyikében alkottak, és összegyűjtöttem az általuk jegyzett összes, a fentebb említett forrásban is hozzáférhető szépirodalmi művet. Az így kialakult adatbázis minden szöveg esetében tartalmazza annak címét, szerzőjének nevét, valamint a szöveg keletkezésének a dátumát. A kor-pusz kialakításának ebben a fázisában még nem törekedtem a szövegek szelektálására vagy csoportosítására, így azok terjedelmét sem vettem figyelembe, fő célom egy minél nagyobb adatbázis létrehozása volt.

66

kicsinyítés és nagyítás

Miután létrehoztam az adatbázist, elkezdődhetett a szövegek feldol-gozása. Az előbbit automatikus módszerrel hajtottam végre, aminek következtében kézhez kaptam az UTF–8 kódolású txt kiterjesztésű fájlt. Előbbire többek között azért volt szükség, hogy a későbbiekben azok morfológiai elemzések elvégzésére alkalmasak legyenek. Az elem-zők működésének teszteléséhez véletlenszerűen kiválasztott öt szöveg közül a karakterkódolási hibák miatt mindösszesen kettőt sikerült elemeztetni hasonló módon. Miután már kezelhető formába hoztuk a legyűjtött szövegeket, azokat manuális módszerrel ellenőriztem és eltávolítottam belőlük a felesleges adatokat (pl. oldalszámok, fejezete-zések, forrás megjelölése stb.) és az esetleges hibákat.

Elméleti szempontból a korpuszok feldolgozása során megkülön-böztetünk szöveg-, mondat-, valamint tokenszintű elemzést, ame-lyek történhetnek automatikus vagy manuális eszközökkel. A korpu-szokban lévő adatok feldolgozása alapján az annotálás hét fő típusát különböztethetjük meg: a lemmatizálást, a szófaji egyértelműsítést (POS-taggelést), szintaktikai elemzést (parsolást), szemantikai elem-zést, diskurzusszintű annotálást, pragmatikai vagy stilisztikai szintű feldolgozást, valamint azokat a megoldásokat, amelyek az ún. informá-ciókinyerést tűzik ki feladatuk céljául (vö. McEnery 2005. 455–456, 458). A fent említett feldolgozási módszereket alapul véve az elkészült, elemezhető formában lévő fájlokat morfológiai elemzésnek vetet-tük alá, amely során mondatra bontáshoz punct tokenizert, szavakra bontáshoz word tokenizert2, POS tageléshez pedig egy kimondottan orosz nyelvű szövegekre fejlesztett programot, a Pymorphy2-t használ-tuk https://pymorphy2.readthedocs.io/en/latest/). Utóbbi egy Python nyelven írt morfológiai elemző, amely az OpenCorpora szóanyagá-val dolgozik és többek között a következő funkciókra képes: a sza-vak szótári alakjának visszaállítására, a szasza-vak alakjának generálására és a grammatikai információ megadására. Végeredményként meg-kaptam a szövegek lexémáinak kisbetűsre vett tokenjét, azaz jeltípusi előfordulását, a lemmáját, vagyis az adott szótőből származó összes

2 A morfológiai elemzéseket az NLTK csomag alapeszközeivel végeztük el (http://

www.nltk.org/book_1ed/)

nyíri zsófi – egy orosz nyelvű emóció- és szentimentszótár, valamint egy orosz nyelvű szépirodalmi korpusz létrehozásának tapasztalatai szóalakot átfogó kategóriát, és a szófajt (POS-tag). Habár az output fájl tartalmazott néhány szisztematikus hibát, azok manuális korrek-ciója megoldható volt, pl. az idézőjelben szereplő vagy a latin szavak felismerésének a hiánya. Az output fájl egy részletét a 2. ábra mutatja be, ahol sorrendben az adott elem szövegbeli előfordulása, a kisbetűsre vett token, majd pedig a POS-tag látható.

2. ábra. Az output fájl részlete

In document kicsinyítés és nagyítás (Pldal 64-67)