• Nem Talált Eredményt

Az esetek többségében a kutatás tárgyát megszámlálhatatlan sokaságból álló elem alkotja, s ezért nem lehet valamennyit bevonni a vizsgálatba. Ilyen eset áll

fenn például a nyelv törvényszerűségeinek a vizsgálata során, amikor egy ter­

mészetes nyelv sajátosságait szándékozzuk meghatározni, azonban nem ter­

jeszthetjük ki a kutatást valamennyi verbális, írott vagy jelbeszéd formában tett nyelvi megnyilatkozásra, az összes szövegre. Hasonló eset áll fenn, ha a népes­

séggel kapcsolatos adatokat szeretnénk gyűjteni, például a magyarok nyelvis­

meretéről - ez esetben nem kérdezhetünk meg minden egyes személyt. Ilyen­

kor a vizsgálat anyagát a megszámlálhatatlan vagy túlságosan nagy sokaságból kell kiválasztani, tehát mintái kell venni. A kutatás során a teljes halmaz helyett annak egy részhalmazát, a mintát fogjuk megvizsgálni, tehát ez lesz a vizsgálati korpusz. A megfelelően (a statisztikai mintavétel elmélete szerint) kiválasztott minta alapján kapott eredményeket, az azokból levont következtetéseket kis hi­

bahatárral az egész sokaságra érvényesnek lehet tekinteni. A minta kiválasztá­

sának módszere megszabja a minta összetételét, ami viszont alapvetően meg­

határozza a kapott eredmények érvényességi területét.

A mintavétellel szemben támasztott legfontosabb követelmény az, hogy a ki­

választott minta a kutatás alapvető szempontjából feleljen meg a teljes sokaság tulajdonságainak. Az ilyen mintát reprezentatív mintának nevezzük, mert benne képviselve van a sokaság minden lényeges tulajdonsága. Amennyiben ez a köve­

telmény nem teljesül, akkor a kapott eredmények nem általánosíthatóak a vizs­

gált sokaság mintából kimaradt más tulajdonságú részeire. Például, ha a szöveg- fordítás általános törvényszerűségeit akarjuk meghatározni, nem elegendő a vizsgálati korpuszt köznyelvi és irodalmi szövegekből összeállítani, hiszen akkor a feltehetőleg sok jellemzőben eltérő tulajdonságú szakszövegek kimaradnak a vizsgálatból; az így megállapított törvényszerűségek igazak a korpusz anyagára - vagyis a köznyelvi és irodalmi szövegekre - , de nem vonatkoznak a fordított szakszövegekre. Ugyanígy, ha köznyelvi szövegek korpuszára támaszkodva dol­

gozunk, akkor az alapján - legyen bármilyen szabályosan összeállítva - nem sza­

bad következtetéseket levonni szakszövegekre vonatkozóan, és nem is használ­

hatók fel például szakszótárak készítésének alapjául.

A minta kiválasztását úgy kell végezni, hogy a sokaság minden elemének azonos legyen a mintába kerülési valószínűsége. Egy olyan eljárás, amelynek során bizonyos tulajdonságú elemek nagyobb valószínűséggel kerülnek a min­

tába, a teljes sokaságétól eltérő tulajdonságú korpuszt hozna létre.

Véletlen mintavételnek azt az eljárást nevezzük, amelynek során a mintába felvett elemeket valamilyen véletlen eljárással (sorsolás, randomszám-generá- lás stb.) választják ki. Sok esetben a mintavételnek elvi problémái is vannak.

Amennyiben a vizsgált sokaság mérete nagyon nagy, fennáll annak a veszélye, hogy kisméretű mintába nem kerülhetnek be a sokaság minden tulajdonságát jellemző egyedek kellő számban. A vizsgálati eredmények ebből adódó hibája

úgy csökkenthető, hogy növeljük a minta méretét, s ezzel egyre jobban megkö­

zelítjük a teljes sokaság jellemzőit.

Olyan nyelvpolitikai, idegennyelv-tudással kapcsolatos stb. vizsgálatoknál, amelyekben valamilyen csoport nyelvhasználatáról szeretnénk megtudni ada­

tokat, alkalmaznunk kell a szociológiában kidolgozott mintavételi eljárásokat.

Nem megfelelő a mintavétel, ha például a magyar egyetemisták idegen- nyelv-tudását kívánjuk vizsgálni, de csak egyetlen városban (pl. Budapesten) tanuló hallgatóktól gyűjtjük az adatokat, mint Andorka írja:

„A mintavételi arány és a minta nagysága alapján pontosan meg lehet ha­

tározni, hogy a véletlen mintavétel alapján kapott különböző adatok - át­

lag, százalékos arány stb. - milyen hibahatárok között tekinthetők pontos­

nak. (...) Elsősorban azt kell tudnunk, hogy főleg a minta nagysága befo­

lyásolja a pontosságot, a mintavételi aránynak sokkal kisebb a szerepe.

Ezért igen nagy sokaságból (például Magyarország lakosságából) vi­

szonylag igen kis - pár ezer egységből álló - minta alapján is meglehető­

sen biztosan következtethetünk. Ha azonban a mintát sok kisebb részre akarjuk bontani (például ha megyénként vagy társadalmi rétegenként aka­

runk adatokat közölni és elemezni), akkor a szükséges minta nagysága nő.

Nagyon durva „hüvelykujj’’-szabályként azt mondhatjuk, hogy minden, a minta alapján megkülönböztetett vizsgált kategóriában legalább 100 meg­

figyelt személynek, családnak kell lennie. Ha például egy egyetem hallga­

tóit vizsgáljuk, de azon belül az egyes évfolyamokat is össze akarjuk ha­

sonlítani, akkor évfolyamonként legalább 100 hallgatónak kell a mintában lennie.” (Andorka 1997: 104)

Ne feledjük tehát, ha statisztikai adatok alapján szeretnénk következtetése­

ket levonni, akkor nagyszámú adatra van szükségünk. Néhány (pl. 20-30) fős csoportok bevonásával készített adatszolgáltatás eredményeiből nem lehet a nyelvhasználat törvényszerűségeire „általános érvényű” következtetéseket le­

vonni. Az ilyen vizsgálatokban a minta nagysága és a mintával szemben elvár­

ható reprezentatív jelleg kérdőjelezhető meg. Az esetek többségében e vizsgá­

latok elvégezhetők volnának a mindenki számára elérhető nagyméretű szöveg- korpuszokon (pl. Magyar Nemzeti Szövegtár).

Példaként nézzünk a szógyakoriság körében végzett két vizsgálatot. Egy ter­

mészetes nyelv szógyakoriságát úgy lehetne meghatározni, ha azon a nyelven tett összes nyelvi megnyilatkozás minden anyaga (az idők folyamán beszélt,

írott) képezné a vizsgálati korpuszt, s ezt vetnénk statisztikai kiértékelés alá.

Nyilvánvalóan ez nem tehető meg, mintát kell választani.

Reprezentatív mintavételre kell törekedni, vagyis olyan mintát célszerű kivá­

lasztani, amely ugyanolyan jellemzőkkel rendelkezik, mint a teljes halmaz. Pél­

dául, ha egy természetes nyelv szókészletét szeretnénk megismerni, és megvizs­

gálni, melyek a leggyakoribb szavak, akkor az lenne a természetes eljárás, hogy minden egyes szó előfordulását megszámolnánk és előfordulási sorrendbe állíta­

nánk. Csakhogy időben nagyon nagy időszakot kellene átölelni, a beszélt és az írott nyelvet egyaránt vizsgálni stb., és sem időnk, sem lehetőségünk nem volna erre. Ha egy véges, kis halmaz elemeit szeretnénk megszámolni, például egy versben előforduló szavak előfordulási gyakoriságát megnézni, akkor ezt egy­

szerűen megtehetjük: összeszámoljuk, hogy melyik szó hányszor fordul elő ben­

ne. A szókészlet nagyon sok elemet tartalmaz, ezért mintavétellel tudjuk megol­

dani a feladatot. Az eljárást ahhoz hasonlíthatjuk, mint amikor egy nagyon nagy kalács sűrűségét akarjuk meghatározni egy kis részén végzett méréssel. A kalács­

ban a tészta, a mazsola és a levegővel kitöltött lyukak sűrűsége más értékű. Lát­

ható, hogy megbízható következtetés csak nagy minta estén vonható le. Kismére­

tű minta esetén elfordulhat, hogy nem kerül bele egyetlen mazsolaszem vagy egyetlen lyuk sem, továbbá a nyers tésztában való ülepedés miatt a kalács alján több lehet a mazsola, mint a felső részen. A kicsiny méretű mintán hamis ered­

ményt kapnánk, ezért az a legmegfelelőbb, ha a kalács több részéből, ha lehet, minél nagyobb méretű mintát veszünk. Megfelelő átlagolás után lehet megadni az egész halmazra vonatkozó értékelést - estünkben a kalács sűrűségét; egy ter­

mészetes nyelv esetében pedig a szavak gyakorisági listáját.

Példaként nézzük meg, hogy két olasz gyakorisági szótár létrehozásához m i­

lyen meggondolások alapján, és milyen módon végezték a mintavételt és hoz­

ták létre a vizsgálati korpuszt. Mindkét szótár (LIF 1971, LIP 1993) szövegkor­

puszának méretét 500 000 szövegszóban határozták meg.

Az első szótár (LIF 1971) készítésének idején még nem lehetett megoldani ilyen méretű beszélt nyelvi korpusz feldolgozását. Ezért úgy döntöttek, hogy a mintát írott szövegekből állítják össze. Figyelembe kellett venni, hogy az olasz nyelvnek különösen sok nyelvváltozattípusa élt a készítés időpontjában. Más­

részről a második világháborút követő időszakban a technikai fejlődés, a politi­

kai-társadalmi változások következtében számos új szó keletkezett és került át a szaknyelvekből a köznyelvbe, és számos szót vett át az olasz nyelv a francia és az angol nyelvekből. A feldolgozás időtartamát az 1945-1968 intervallumra korlátozták. A korpuszt öt egyenlő méretű részből képezték gondosan kialakí­

tott szempontok alapján, a következő írott anyagokból válogatva: tíz színdarab, tíz regény, nyolc mozifilm, hét napilap, három oktatási segédkönyv, és ezek

szövegéből állították össze az egyenként 100 000 szövegszavas részeket. Ez a korpusz nem tartalmaz beszélt nyelvi anyagot, továbbá a felsoroltakon kívüli írott műfajhoz tartozó szöveget.

A második szótár (LIP 1993) különlegessége, hogy összeállításánál a beszélt nyelv anyagát dolgozták fel úgy, hogy négy nagyváros beszélőitől vettek mintát (Róma, Milánó, Nápoly és Firenze), és városonként 125 000 szövegszavas alkorpuszt rögzítettek. A rögzítés helyének meghatározása a területi nyelvi el­

térések hatásának kiküszöbölése miatt jelentett nagy gondot. Például a városok lakosainak száma szerint Firenze nem illene a sorba, azonban a városnak az iro­

dalmi olasz nyelv kialakításában játszott szerepe miatt indokolt volt felvenni.

Meghatározták azt is, milyen kommunikációs helyzetben rögzítik a beszédeket.

Mindegyik kommunikációs csoportban városonként 25 000 szavas anyagot rögzítettek. Ezek a következők voltak:

• kétirányú, szemtől szembe kommunikáció, szabadon (otthon, iskolában, munkahelyen),

• kétirányú, nem szemtől szembe kommunikáció, szabadon (telefonbeszél­

getés),

• kétirányú, szemtől szembe kommunikáció, nem szabadon (gyűlés, vizsga, interjú),

• egyirányú kommunikáció, a címzett jelenlétében (tanítási óra, konferen­

cia-előadás),

• egyirányú kommunikáció, távolra vagy írott szöveg alapján (tv-, rádió­

közvetítés).

A mintaadók nem, életkor, iskolai végzettség, foglalkozás szerinti rétegző­

dését is pontosan megtervezték a reprezentatív mintavétel megvalósításához.

A szóanyag rögzítése az 1990-1992 időintervallumban történt. A gyors feldol­

gozást, a szótár rövid időn belül való kiadását a fejlett hangrögzítési technika és az automatizált lemmatizáció tette lehetővé. A LIP korpusza minden gondos tervezés ellenére nem tartalmaz anyagot a falvakban beszélt és az írott nyelv­

ből. Látszik, hogy a gondos tervezés és kivitelezés ellenére a két vizsgálati kor­

pusznak nem azonos a viszonya az olasz nyelv teljes korpuszához. A két szótár­

ban közölt eredmények valóban különbséget mutatnak, aminek az oka minden bizonnyal elsősorban a korpuszok összeállítási módszerének a különbségében és nem a két mintavétel között eltelt idő alatti nyelvváltozásban keresendő.

A kicsiny méretű mintákból számlázó hibák kiküszöbölésének fent említett módja, nevezetesen a vizsgálati korpusz jelentős mértékű növelése a mai technikai eszközök segítségével könnyen megvalósítható. A rendelkezésre álló számítógé­

pes memóriák több millió szövegszóból álló szövegkorpuszok építését teszik lehe­

tővé, és a szoftverek az automatikus feldolgozás (annotálás, lemmatizálás)

munká-latait jelentős mértékben segítik. Természetesen nagyméretű elektronikus korpu­

szok összeállítása költséges és időigényes, a gépi lemmatizálás, valamint az annotálás egyaránt nagy hibaszázalékkal működtethetőek, ennek következtében az emberi munka fontos szerepet játszik a minta gyűjtésében.