• Nem Talált Eredményt

Mint láttuk, minden vizsgálat valamilyen halmaz elemeire terjed ki, azokra vo­

natkozóan tesz általános érvényű megállapításokat. A természettudományok­

ban a természet, a műszaki tudományokban a technikai rendszerek, az orvostu­

dományban az emberi szervezetek szolgáltatják a vizsgálandó sokaságot. Az egyes kutatások ezeknek a hatalmas méretű halmazoknak egy-egy részét vagy egy-egy konkrét egyedét vizsgálják. A kísérletek véges számú egyedre terjed­

nek ki, azonban a vizsgálatba bevont egyedek a vizsgált sokaság minden lénye­

ges tulajdonságát hordozzák, ezért absztrahált modellnek tekinthetők.

Vizsgálati korpusz

A nyelvészetben régóta használt fogalom a korpusz, amelyen a vizsgálat céljára kiválasztott nyelvi adatok összességét értjük. Az összegyűjtött empirikus nyel­

vi adatokból állítják össze a vizsgálati korpuszt, majd a kutatás céljának megfe­

lelően elemzik és értékelik a benne tárolt anyagot. A gyűjtött nyelvi adatok sok­

félék lehetnek: írott vagy hangzó szövegek, nyelvjárási beszélők megnyilatko­

zásai, lexémák, jellegzetes nyelvtani szerkezetek stb.

Antal László az elemzés korpuszának nevezi a kiindulásként összegyűjtött megnyilatkozásokat:

„Egy adott időpont nyelvét vizsgálni annyit tesz, mint bizonyos számú megnyilatkozást vizsgálni. A vizsgált megnyilatkozások összességét hív­

juk az elemzés korpuszának.” (Antal 2005/1964: 27)

A különböző kutatási vagy gyakorlati feladatok megoldása céljából összeál­

lított korpuszok anyaga nagymértékben különbözhet egymástól. Például egy meghatározott nyelvváltozattípus célszerű vizsgálata úgy biztosítható, ha a korpusz speciálisan a témakörbe tartozó megnyilatkozásokból áll össze. Sok esetben egy-egy vizsgálati korpusz létrehozása úgy történik, hogy nagyméretű korpuszból emelik ki a kutatásokhoz szükséges anyagot.

Számos kutatás vizsgálati anyagát különböző módon előállítható szövegek ké­

pezik. Ezek közé tartozik a nyelvészeti kutatások több ága. A szövegek feldolgo­

zása lehetővé teszi a különböző nyelvi jellemzők megállapítását, lexikai és gram­

matikai gyakorisági jellemzőkön statisztikai vizsgálatok elvégzését.

A nyelvészetben az utóbbi évtizedekben vált lehetővé hatalmas méretű, több millió szövegszóból álló elektronikus (számítógépes) vizsgálati anyagok, kor­

puszok összeállítása. A korpusznyelvészet egyik feladata ilyen nagyméretű szö­

vegkorpuszok előállítása. A nyelvi adatok ily módon való tárolását és feldolgo­

zását mindenekelőtt az utóbbi időben elterjedt számítógépes adattárolás és adatfeldolgozás tette lehetővé. Az elektronikusan megjelenített adatok - ezek között az interneten elérhetőek - elsősorban az írott nyelven keresztül, szöve­

gek formájában megjelenő adatokat foglalják magukba.

Elektronikus szövegkorpusz (e-korpusz)

A modem adatbázisok bármilyen verbálisán elhangzott vagy írásban rögzített megnyilatkozást tartalmazhatnak. A modem technika lehetővé teszi a nyelvi megnyilatkozások minden válfajának összegyűjtését, rögzítését, archiválását és feldolgozását. Nyelvi anyagot rögzíthetünk írásban, hangfelvételen, mozgó filmfelvételen és számítógépek segítségével elektronikus formában. Megje­

gyezzük, hogy az összegyűjtött és digitalizált szövegek összessége korpusz­

nyelvészeti értelemben még nem nevezhető korpusznak. Az elektronikus kor­

puszoknak több vonatkozásban is kiemelt jelentőségük van. (1) A számítás- technika eredményei lehetővé teszik, hogy a korpusz anyaga ne csupán egyszerűen digitalizált szövegek halmaza legyen, hanem nyelvészeti vizsgála­

tokra alkalmas, feldolgozott, annotált szövegek gyűjteménye. (2) Több millió szövegszót tartalmazó korpusz kezelhető. (3) A korpuszok nagy távolságról is elérhetőek, különböző, egymástól távol lévő korpuszok összekapcsolhatóak.

(4) A korpuszban tárolt nyelvi adatok térben és időben korlátozás nélkül nagy sebességgel továbbíthatók.

A korpusznyelvészetben szövegkorpuszon elektronikusan tárolt és számító­

gép segítségével feldolgozható vizsgálati anyagot értenek. Sinclair (1991) meghatározása szerint a korpusz természetes módon keletkező, elektronikusan tárolt szövegek gyűjteménye, amelyet a természetes nyelvek állandóságának vagy változatosságának leírására használnak. A korpuszok tulajdonképpen egyfajta nyelvi performanciamodellnek tekinthetőek.

A Magyar Nemzeti Szövegtár weboldalán található definíció és a hozzáfű­

zött kiegészítő magyarázat a következőképpen fogalmaz:

„A korpusz ténylegesen előforduló írott vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és ren­

dezik. Nem feltétlenül egész szövegeket tartalmaz, és nemcsak tárháza a szö­

vegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat).” (http://corpus.nytud.hu/mnsz/)

A korpuszok összeállításához és annotálásához megfelelő számítógépes ka­

pacitásra és sok ember sokévnyi munkájára van szükség. Ezért kevés igazán nagy korpusz létezik, a legnagyobb korpuszokkal kimondottan korpuszkészí­

tésre specializálódott intézmények rendelkeznek. (A korpuszalapú kutatások­

ról részletesen lásd Prószéky-Kis 1999: 287-306, Szirmai 2005.)

Az elektronikus korpuszoknak számos fajtája létezik, attól függően, milyen szövegekből és milyen célokra hozták létre őket. Például történeti nyelvi kor­

puszt azért hoznak létre, hogy egy adott természetes nyelv korábbi, írott anya­

gait akár több száz évre visszamenően vizsgálhassák (a szövegek kiválasztása természetesen gondosan megválasztott szempontok alapján történik). Ilyenek például a francia Trésor Frantext korpusza, az angol Dictionary o f Old English korpusza vagy a Magyar Történeti Korpusz (Pajzs 2004). Szinkrón, egynyelvű általános korpuszok közül sok fajtát készítettek, ilyen angol nyelvű korpuszok például a Bank o f English vagy a British National Corpus. A Magyar Nemzeti Szövegtár (MNSZ) a mai magyar írott köznyelv általános célú reprezentatív korpusza; eredetileg 100 milliós nagyságrendűre tervezték, ma már [2007-ben]

187,6 millió szövegszóból áll. Öt regionális nyelvváltozatot tartalmaz (magyar- országi, szlovákiai, kárpátaljai, erdélyi, vajdasági), és ezen belül öt stílusréteg­

ből tartalmaz szövegeket (sajtó, szépirodalmi, tudományos, hivatalos, szemé­

lyes) (http://corpus.nytud.hu/mnsz/).

Az emberi felhasználásra készített korpuszoknak számos fajtája ismert;

ilyen a párhuzamos korpusz, amely forrásszövegeket és azok célnyelvi fordítá­

sait tartalmazza, vagy az összehasonlító korpusz, amely nem fordításokat, ha­

nem hasonló stílusú, témájú autentikus szövegeket tartalmaz két vagy több nyelven. Oktatási célra készítettek úgynevezett nyelvtanulói korpuszokat, ame­

lyek idegen nyelvet tanulók által alkotott szövegeket foglalnak magukban;

ezek kiválóan alkalmasak a tipikusan előforduló hibákon keresztül a nyelvtanu­

lás nehézségeinek a feltárására, oktatási módszerek javításához való felhaszná­

lásra. A korpuszok fordítási felhasználásáról magyarul bővebben Károly (2003) tanulmánya, a magyar nyelvtechnológia korpusznyelvészeti eredmé­

nyeiről Prószéky et al. (2003: 579-582) írása tájékoztat.

Az elektronikus korpuszok olyan eszközök, amelyek lehetővé teszik a kuta­

tók számára, hogy nagy tömegű autentikus szöveget tanulmányozzanak

nyelv-technológiai, statisztikai módszerekkel. Ha egy kutatónak lehetősége van elekt­

ronikus korpuszok elemzésére, az tulajdonképpen az adatgyűjtés fáradságos munkájától kíméli meg, hiszen ilyen nagy tömegű nyelvhasználati adatot egyetlen kutató sem lenne képes maga összegyűjteni.

Nem szabad elfelejteni, hogy a nyelvhasználati korpuszok elsősorban statiszti­

kai vizsgálatokra alkalmasak, a vizsgálatokból levont következtetések általánosítá­

sával óvatosan kell bánni. Szintén óvatosnak kell lenni a korpuszból kiemelt példa­

mondatokkal, hiszen az átlagos beszélő sok hibás mondatot, nem szabályos vagy helytelen grammatikai alakot használ. Fontos az is, hogy milyen céllal és milyen szövegekből készítették az adott korpuszokat, például párhuzamos szövegkorpu­

szok alapján készített kétnyelvű szótárak nagy százalékban tartalmazhatnak meg­

feleltetési hibákat; vagy például köznyelvi, újságnyelvi korpuszok nem alkalmasak arra, hogy szakszótári definícióikat emeljenek ki belőlük.

A nyelvhasználat törvényszerűségeinek vizsgálatához nem lehet összegyűj­

teni valamennyi elhangzott megnyilatkozást, ezért bármely korpusz anyaga a megnyilatkozások tört részét képezi. A korpuszok összeállításánál a mintavá­

lasztás szabályai szerint kell eljárni.

A korpuszalapú kutatások kiválóan alkalmazhatóak a leíró nyelvészetben, a lexikográfiában a szótárak készítéséhez, a szövegnyelvészet területén, a nyelv- tanításban vagy a fordításkutatásban.