Mint láttuk, minden vizsgálat valamilyen halmaz elemeire terjed ki, azokra vo
natkozóan tesz általános érvényű megállapításokat. A természettudományok
ban a természet, a műszaki tudományokban a technikai rendszerek, az orvostu
dományban az emberi szervezetek szolgáltatják a vizsgálandó sokaságot. Az egyes kutatások ezeknek a hatalmas méretű halmazoknak egy-egy részét vagy egy-egy konkrét egyedét vizsgálják. A kísérletek véges számú egyedre terjed
nek ki, azonban a vizsgálatba bevont egyedek a vizsgált sokaság minden lénye
ges tulajdonságát hordozzák, ezért absztrahált modellnek tekinthetők.
Vizsgálati korpusz
A nyelvészetben régóta használt fogalom a korpusz, amelyen a vizsgálat céljára kiválasztott nyelvi adatok összességét értjük. Az összegyűjtött empirikus nyel
vi adatokból állítják össze a vizsgálati korpuszt, majd a kutatás céljának megfe
lelően elemzik és értékelik a benne tárolt anyagot. A gyűjtött nyelvi adatok sok
félék lehetnek: írott vagy hangzó szövegek, nyelvjárási beszélők megnyilatko
zásai, lexémák, jellegzetes nyelvtani szerkezetek stb.
Antal László az elemzés korpuszának nevezi a kiindulásként összegyűjtött megnyilatkozásokat:
„Egy adott időpont nyelvét vizsgálni annyit tesz, mint bizonyos számú megnyilatkozást vizsgálni. A vizsgált megnyilatkozások összességét hív
juk az elemzés korpuszának.” (Antal 2005/1964: 27)
A különböző kutatási vagy gyakorlati feladatok megoldása céljából összeál
lított korpuszok anyaga nagymértékben különbözhet egymástól. Például egy meghatározott nyelvváltozattípus célszerű vizsgálata úgy biztosítható, ha a korpusz speciálisan a témakörbe tartozó megnyilatkozásokból áll össze. Sok esetben egy-egy vizsgálati korpusz létrehozása úgy történik, hogy nagyméretű korpuszból emelik ki a kutatásokhoz szükséges anyagot.
Számos kutatás vizsgálati anyagát különböző módon előállítható szövegek ké
pezik. Ezek közé tartozik a nyelvészeti kutatások több ága. A szövegek feldolgo
zása lehetővé teszi a különböző nyelvi jellemzők megállapítását, lexikai és gram
matikai gyakorisági jellemzőkön statisztikai vizsgálatok elvégzését.
A nyelvészetben az utóbbi évtizedekben vált lehetővé hatalmas méretű, több millió szövegszóból álló elektronikus (számítógépes) vizsgálati anyagok, kor
puszok összeállítása. A korpusznyelvészet egyik feladata ilyen nagyméretű szö
vegkorpuszok előállítása. A nyelvi adatok ily módon való tárolását és feldolgo
zását mindenekelőtt az utóbbi időben elterjedt számítógépes adattárolás és adatfeldolgozás tette lehetővé. Az elektronikusan megjelenített adatok - ezek között az interneten elérhetőek - elsősorban az írott nyelven keresztül, szöve
gek formájában megjelenő adatokat foglalják magukba.
Elektronikus szövegkorpusz (e-korpusz)
A modem adatbázisok bármilyen verbálisán elhangzott vagy írásban rögzített megnyilatkozást tartalmazhatnak. A modem technika lehetővé teszi a nyelvi megnyilatkozások minden válfajának összegyűjtését, rögzítését, archiválását és feldolgozását. Nyelvi anyagot rögzíthetünk írásban, hangfelvételen, mozgó filmfelvételen és számítógépek segítségével elektronikus formában. Megje
gyezzük, hogy az összegyűjtött és digitalizált szövegek összessége korpusz
nyelvészeti értelemben még nem nevezhető korpusznak. Az elektronikus kor
puszoknak több vonatkozásban is kiemelt jelentőségük van. (1) A számítás- technika eredményei lehetővé teszik, hogy a korpusz anyaga ne csupán egyszerűen digitalizált szövegek halmaza legyen, hanem nyelvészeti vizsgála
tokra alkalmas, feldolgozott, annotált szövegek gyűjteménye. (2) Több millió szövegszót tartalmazó korpusz kezelhető. (3) A korpuszok nagy távolságról is elérhetőek, különböző, egymástól távol lévő korpuszok összekapcsolhatóak.
(4) A korpuszban tárolt nyelvi adatok térben és időben korlátozás nélkül nagy sebességgel továbbíthatók.
A korpusznyelvészetben szövegkorpuszon elektronikusan tárolt és számító
gép segítségével feldolgozható vizsgálati anyagot értenek. Sinclair (1991) meghatározása szerint a korpusz természetes módon keletkező, elektronikusan tárolt szövegek gyűjteménye, amelyet a természetes nyelvek állandóságának vagy változatosságának leírására használnak. A korpuszok tulajdonképpen egyfajta nyelvi performanciamodellnek tekinthetőek.
A Magyar Nemzeti Szövegtár weboldalán található definíció és a hozzáfű
zött kiegészítő magyarázat a következőképpen fogalmaz:
„A korpusz ténylegesen előforduló írott vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és ren
dezik. Nem feltétlenül egész szövegeket tartalmaz, és nemcsak tárháza a szö
vegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat).” (http://corpus.nytud.hu/mnsz/)
A korpuszok összeállításához és annotálásához megfelelő számítógépes ka
pacitásra és sok ember sokévnyi munkájára van szükség. Ezért kevés igazán nagy korpusz létezik, a legnagyobb korpuszokkal kimondottan korpuszkészí
tésre specializálódott intézmények rendelkeznek. (A korpuszalapú kutatások
ról részletesen lásd Prószéky-Kis 1999: 287-306, Szirmai 2005.)
Az elektronikus korpuszoknak számos fajtája létezik, attól függően, milyen szövegekből és milyen célokra hozták létre őket. Például történeti nyelvi kor
puszt azért hoznak létre, hogy egy adott természetes nyelv korábbi, írott anya
gait akár több száz évre visszamenően vizsgálhassák (a szövegek kiválasztása természetesen gondosan megválasztott szempontok alapján történik). Ilyenek például a francia Trésor Frantext korpusza, az angol Dictionary o f Old English korpusza vagy a Magyar Történeti Korpusz (Pajzs 2004). Szinkrón, egynyelvű általános korpuszok közül sok fajtát készítettek, ilyen angol nyelvű korpuszok például a Bank o f English vagy a British National Corpus. A Magyar Nemzeti Szövegtár (MNSZ) a mai magyar írott köznyelv általános célú reprezentatív korpusza; eredetileg 100 milliós nagyságrendűre tervezték, ma már [2007-ben]
187,6 millió szövegszóból áll. Öt regionális nyelvváltozatot tartalmaz (magyar- országi, szlovákiai, kárpátaljai, erdélyi, vajdasági), és ezen belül öt stílusréteg
ből tartalmaz szövegeket (sajtó, szépirodalmi, tudományos, hivatalos, szemé
lyes) (http://corpus.nytud.hu/mnsz/).
Az emberi felhasználásra készített korpuszoknak számos fajtája ismert;
ilyen a párhuzamos korpusz, amely forrásszövegeket és azok célnyelvi fordítá
sait tartalmazza, vagy az összehasonlító korpusz, amely nem fordításokat, ha
nem hasonló stílusú, témájú autentikus szövegeket tartalmaz két vagy több nyelven. Oktatási célra készítettek úgynevezett nyelvtanulói korpuszokat, ame
lyek idegen nyelvet tanulók által alkotott szövegeket foglalnak magukban;
ezek kiválóan alkalmasak a tipikusan előforduló hibákon keresztül a nyelvtanu
lás nehézségeinek a feltárására, oktatási módszerek javításához való felhaszná
lásra. A korpuszok fordítási felhasználásáról magyarul bővebben Károly (2003) tanulmánya, a magyar nyelvtechnológia korpusznyelvészeti eredmé
nyeiről Prószéky et al. (2003: 579-582) írása tájékoztat.
Az elektronikus korpuszok olyan eszközök, amelyek lehetővé teszik a kuta
tók számára, hogy nagy tömegű autentikus szöveget tanulmányozzanak
nyelv-technológiai, statisztikai módszerekkel. Ha egy kutatónak lehetősége van elekt
ronikus korpuszok elemzésére, az tulajdonképpen az adatgyűjtés fáradságos munkájától kíméli meg, hiszen ilyen nagy tömegű nyelvhasználati adatot egyetlen kutató sem lenne képes maga összegyűjteni.
Nem szabad elfelejteni, hogy a nyelvhasználati korpuszok elsősorban statiszti
kai vizsgálatokra alkalmasak, a vizsgálatokból levont következtetések általánosítá
sával óvatosan kell bánni. Szintén óvatosnak kell lenni a korpuszból kiemelt példa
mondatokkal, hiszen az átlagos beszélő sok hibás mondatot, nem szabályos vagy helytelen grammatikai alakot használ. Fontos az is, hogy milyen céllal és milyen szövegekből készítették az adott korpuszokat, például párhuzamos szövegkorpu
szok alapján készített kétnyelvű szótárak nagy százalékban tartalmazhatnak meg
feleltetési hibákat; vagy például köznyelvi, újságnyelvi korpuszok nem alkalmasak arra, hogy szakszótári definícióikat emeljenek ki belőlük.
A nyelvhasználat törvényszerűségeinek vizsgálatához nem lehet összegyűj
teni valamennyi elhangzott megnyilatkozást, ezért bármely korpusz anyaga a megnyilatkozások tört részét képezi. A korpuszok összeállításánál a mintavá
lasztás szabályai szerint kell eljárni.
A korpuszalapú kutatások kiválóan alkalmazhatóak a leíró nyelvészetben, a lexikográfiában a szótárak készítéséhez, a szövegnyelvészet területén, a nyelv- tanításban vagy a fordításkutatásban.