• Nem Talált Eredményt

A hálózatelmélet gyakorlati alkalmazásai nyelvészeti területen 1

Kulcsszók: hálózatok, kapcsolatszám-elemzés, skálafüggetlen, számítógépes nyelvészet Bevezetés

A nyelvnek mint bizonyos nyelvi elemek hálózatának az elemzése viszonylag új kutatási terület. Nagyjából az ez-redfordulótól számíthatjuk a skálafüggetlen hálózatok elméletének alkalmazását a tudomány legkülönfélébb terüle-tein (Barabási 2008). Jelen dolgozat célja megmutatni, hogy a nyelv hálózatként való felfogása hasznos gyakorlati eredményekkel is szolgálhat.

Dolgozatomat az elméleti alapok lefektetésével kezdem. Ismertetem a skálafüggetlen hálózat fogalmát, és egy-egy példán szemléltetem, hogyan mutatták ki a nyelv szemantikai, lexikális és nyelvtani hálózatainak skálafüggetlen felépítését. Ezután bemutatok egy gyakorlati módszert, melyet három rövid szövegen alkalmaztam. Megmutatom, hogy a szövegekből építhető hálózatok elemzése hogyan segítheti a szövegek tartalmának visszaadását. Ehhez módszerem eredményeit összehasonlítom egy régebbi módszer eredményeivel.

A nyelv mint hálózat

Skálafüggetlen hálózatnak nevezzük az olyan gráfot (vagyis valahány elemet valahány kapcsolattal, ún. éllel ösz-szekötő alakzatot), amely kis-világ tulajdonságú, és fokszámeloszlását hatványfüggvény írja le.

A kis-világ tulajdonság azt jelenti, hogy vannak bizonyos sűrű kapcsolatrendszerrel rendelkező részhálózatok (kis világok) a hálózaton belül, ezek között viszont kevesebb a kapcsolat. Az ilyen hálózatok fontos tulajdonsága, hogy két pont átlagos távolsága kicsinek mondható egy ugyanekkora, véletlenszerű, nem kis-világ karakterű háló-zatéhoz képest. Néhány példa: a Föld teljes lakosságának kapcsolatrendszerében az átlagos távolság hat lépés, a táplálékláncban kettő kapcsolat, az egy sejten belüli molekuláknál három kémiai reakciónyi távolság, tehát a háló-zatok méretéhez képest rendkívül alacsony szám.

Fokszámeloszlás alatt azt a függvényt értjük, amely megmutatja, hány elem rendelkezik egy, kettő, három stb.

kapcsolatszámmal. Ez a függvény skálafüggetlen hálózatok esetében hatványfüggvény (ld. az 1. ábrát): sok pont-nak van kevés kapcsolata, de csak néhány pont akad, amelyik kiugróan magas számú kapcsolattal rendelkezik – ezeket nevezzük középpontoknak.

Egy ilyen hálózatról sok mindent el tudunk mondani: a kis-világságnak köszönhetően nagyon gyorsan terjednek rajta az ingerek, és sokáig megmaradnak. Rendkívül ellenállóak a sérülésekkel, meghibásodásokkal szemben. Szá-mítógépen remekül modellezhetőek, ezáltal juttatva új eredményekhez számos tudományág kutatóit (Barabási 2008, Csermely 2005).

1 A szerző köszönetét fejezi ki Kovács Lászlónak, a Nyugat-magyarországi Egyetem Bölcsészettudományi Kar docensének, a tanulmány átolvasásáért, észrevételeiért és értékes tanácsaiért.

1. ábra

Egy hatványfüggvény (Barabási 2006)

Az első ilyen jellegű vizsgálódásokhoz Zipf 1945-ös törvénye adta az alapot (Crystal 2003, Csermely 2005). Zipf a következőket mondta ki: Rendezzük egy adott szövegkorpusz szavait gyakoriságuk szerinti sorba! Ekkor a szavak gyakorisági sorszámának és előfordulásai számának szorzata konstans, vagyis fordítottan arányosak. Ha ezt grafi-konon ábrázoljuk (a vízszintes koordináta a szavak kapcsolatszáma gyakoriságuk szerint, a függőleges pedig az egyes szavak előfordulásainak száma), akkor hatványfüggvényt kapunk. A Zipf-törvény teljesülését számos nyelvre mutatták ki. Zipf azt is kimutatta, hogy hasonló összefüggés van a szavak gyakorisága és fonémáik száma között (minél rövidebb egy szó, annál gyakoribb), valamint a szavak gyakorisági sorszáma és jelentéseik száma között is.

Ez utóbbit nyelvészeti vizsgálatok igazolták: minél ritkább egy szó, annál konkrétabb, egyértelműbb a jelentése.

Szavak szemantikai hálózatára jó példa a WordNet projekt (Kovács 2007, 2011). Ez olyan, elektronikus formá-ban létező hierarchikus adatbázis, mely a szavakat jelentés és szófaj szerint kapcsolja össze egy hálózattá. Ehhez a legkülönfélébb pszicholingvisztikai kísérletek eredményeit használják fel. A WordNet projekt több nyelvből tartal-maz hálózatokat, 2001 óta a magyar nyelv is ezek közé tartozik. 2002-ben a WordNet hálózatának elemzésével kis-világ tulajdonságot állapítottak meg.

A mentális lexikon hálózatát eddig leginkább a szóasszociáció módszerével vizsgálták. A legelterjedtebb for-mája a szabad egyválaszos változat. Egyválaszos, mert egy lépésben egyetlen szóra (hívószó) egyetlen másik szóval (válaszszó) kell válaszolnia a kísérleti személynek. A szabad jelző pedig arra utal, hogy nincs a válaszszóval szemben megkötés (a kötött verzióban pl. egy adott szócsoportból kell válaszszót adni), lehet akár szófajváltó asz-szociáció is. Magyar nyelven a legtöbb és legbővebb ilyen jellegű kutatás Lengyel Zsolt nevéhez fűződik (Lengyel 2012). Kutatásainak eredményeit felhasználva Kovács László megállapította (Kovács 2007): az asszociációk alap-ján olyan fogalmi hálózat építhető fel, amely legjobban a súlyozott, irányított pszeudográf kifejezéssel írható le.

Pszeudográf, mert egy pontnak lehet éle saját magához, egyfajta hurokként, hiszen egy adott hívószóra lehetett ugyanaz a szó a válasz. Irányítottá és súlyozottá azáltal válik, hogy számon tartjuk mind az asszociációk irányát (melyik szóra, melyik szó volt a válasz), mind azok erősségét egy számadat formájában (hányszor történt meg egy adott asszociáció, milyen gyors volt a válasz). Kovács a fogalmak különböző kis világokba, domainekbe való tarto-zását is kimutatta: a gyerek hívószóra például négy témakörből érkeztek válaszok: életkorral, családdal, valamilyen játékkal vagy gyermeki tulajdonsággal voltak kapcsolatosak. Így ez a szó ebbe a négy kis világba tartozik.

Fentebb javasolt modelljét munkatársaival az Agykapocs nevű projekt keretein belül valósította meg (Kovács 2011). Az agykapocs.hu címen elérhető oldalra bárki regisztrálhat. A felbukkanó program adott szót kínál fel, erre kell a kísérleti személynek begépelnie az első eszébe jutó szót. A program adatbázisban rögzíti a kialakuló asszo-ciációs hálót, számon tartja a kapcsolatok irányát és súlyát. A projekt 2008 áprilisában indult egy 100 szavas listával, azóta folyamatosan bővül. Mivel a részvétel önkéntes, a beérkező információ kellően nagy mennyiségű, és minden választ kutatók hagynak jóvá, így az Agykapocs-kutatás eredményei kellően megbízhatóaknak tekinthetők. A projekt empirikus adatokat szolgáltatott a mentális lexikon kis-világ karakteréről, skálafüggetlen eloszlásáról.

ERDEI TAMÁS:A HÁLÓZATELMÉLET GYAKORLATI ALKALMAZÁSAI NYELVÉSZETI TERÜLETEN 123 Nyelvtani hálózatokkal kapcsolatban magyar nyelvre a legelső és egyik legjelentősebb kutatást Dominich Sán-dor és Kiezer Tamás végezte (Dominich, Kiezer 2005). Az egyik megállapításuk az volt, hogy a Zipf-törvény a ma-gyar nyelvre csak megközelítőleg érvényes. Ezután számítógépes korpuszelemzést végeztek az alábbiakon: Arany János és Jókai Mór összes műve, a Vizsolyi Biblia, a Pallas Nagy Lexikon, Magyar Web-korpusz. Egymással nyelv-tanilag kapcsolatban állónak tekintették azon szavakat, amelyek előfordultak egymás mellett. A mondathatárt nem vették figyelembe, vagyis egy mondat utolsó szavát és a következő mondat első szavát egymással kapcsolatban állónak tekintették, ami helytelen következtetéseket is eredményezhetett. Azt sem vették ilyen módon figyelembe, hogy a nem közvetlenül egymás mellett lévő szavak is lehetnek valamilyen nyelvtani kapcsolatban. Módszerük hibái ellenére mindegyik esetben hatványfüggvényt kaptak, valamint kimutatták a kis-világ tulajdonságot.

Egy kísérlet hálózatalapú tartalomelemzésre

Kovács László a nemzetközi szakirodalomból számos gyakorlati eredményt említ, melyek a számítógépes szöveg-feldolgozás terén születtek (Kovács 2011). Sikerült kutatóknak hálózatelméleti ismereteket felhasználva kulcssza-vakat azonosítani olyan gyökeresen eltérő nyelvű szövegekben, mint a kínai és az olasz. További kínai kutatók tartalmi összefoglalókat is generáltak.

Az alábbiakban hasonló eljárásra teszek kísérletet: három cikk kulcsszavait próbálom visszaadni a szavak kap-csolatszáma alapján. Mindhárom cikk eltérő témájú: egy gasztronómiai, egy bűnügyi és egy könnyűzenei cikket vizsgáltam. A szövegekben a címet az első mondatként értelmeztem. A cikkek szavait a kísérlet előtt szótövesítet-tem. A legjobb szótövezők sem működnek hibátlanul, ezért ezt manuálisan végeztem el – a felhasznált szövegek viszonylagos rövid terjedelme miatt ez rövid idő alatt is kivitelezhető. A ragokat és jeleket (inflexiós morfémák) eltá-volítottam, míg a képzőket (derivációs morfémák) meghagytam.

Az így kapott, a telegrafikus beszédre hasonlító szövegekre két módszert alkalmaztam. Az első esetben egy-szerű szógyakorisági vizsgálatot végeztem: a táblázatokban a szavak előfordulásaik száma szerinti csökkenő sor-rendben szerepelnek. A második esetben – Dominich és Kiezer vizsgálatához hasonlóan – a szavak között kapcso-latokat feltételeztem. Részben a módszerükkel szemben támasztott kritikák miatt én akkor tekintettem kapcsolatban állónak két szót, ha azok előfordulnak egy mondatban. Az így kapott hálózatban állapítottam meg, hogy melyek a legtöbb kapcsolatszámmal rendelkező szavak. A kapcsolatok számlálását általam írt program végezte. Az eredmé-nyekből végül eltávolítottam az ún. stopszavakat (a, az, és stb.), majd a két módszer eredményeit szembesítettem.

Hipotézisem az volt, hogy a kapcsolatok számlálásán alapuló módszer jobban visszaadja a cikkek tartalmát, mint a szógyakorisági módszer.

Az első cikk gasztronómiai és kulturális témájú. A Márton garasa című egyoldalas cikk a Szent Márton-napi szokásokról, a liba és az újbor fogyasztásáról szól. Eredményeim az 1. táblázatban láthatóak. A jobb oldalon, a kapcsolatos módszernél az egyes értékek sokkal inkább elválnak egymástól, így pontosabb képet kaphatunk. A szent és a Márton szavak egymás alá kerültek, valamint megjelent a listán a cikk tartalma szempontjából lényeges máj szó is. A kapcsolatos módszer láthatóan nem tudja még kezelni a szinonimákat – lúd, illetve liba – ezeket külön szavaknak veszi.

Szógyakoriság Kapcsolatszám

márton 12 Márton 167

A második cikk a Kínai végjáték címet viseli, és a Zsaru Magazin 2013/12-es számában jelent meg. Lezárt nyomo-zásról szól, mely megállapította, hogy egy Zhu nevű kínai férfi és társa 2001-ben megölt és kifosztott egy szintén kínai párt a Bakonyban. A cikk kétoldalnyi terjedelmű. Az eredmények (első húsz szó) a 2. táblázatban láthatóak.

Az egyes szavak értékük szerint itt is jobban elválnak egymástól a jobb oldalon. A második listán följebb kerültek a következők: A két elkövető, Wu és Zhu neve, a cikkben a tudósítóként szereplő főhadnagy, a helyszín szó. Csak a jobb oldalon szerepelnek: szerint, üzleti (a cikk szempontjából fontos, mivel üzleti indíttatású gyilkosságról van szó), sértett, holttest, indul, Li (a megölt nő) – ezek mind lényeges, a cikk tartalmára utaló szavak. A baloldalon fentebb olyan információk kerültek – pl. a nyilatkozó főhadnagy neve, Baráth Attila, ügy, ad, bántalmazás – melyek kevésbé fontosak, vagy nyilvánvalóak a többi információból. A szógyakorisági módszer viszont magasabbra helyezte a kínai és a gyilkosság szavakat, valamint ezen a listán láthatóak a kihallgatás és az elismer szavak – ezek fontos tartalmi szavak.

Szógyakoriság Kapcsolatszám

Férfi 7 Zhu 124

Zhu 6 Férfi 110

Kínai 5 Személy 90

Volt 5 Helyszín 83

Eszköz 4 Kínai 81

Helyszín 4 Wu 72

Személy 4 főhadnagy 65

Wu 4 Szerint 60

Áldozat 3 Üzleti 58

Baráth 3 Sértett 58

főhadnagy 3 Áldozat 55

gyilkosság 3 Eszköz 54

Két 3 Baráth 53

kihallgatás 3 Volt 52

Sérülés 3 Holttest 52

Ügy 3 Indul 51

Ad 2 Li 50

Attila 2 Vázol 49

bántalmazás 2 gyilkosság 47

Elismer 2 Két 47

2. táblázat Kínai végjáték

Végül a harmadik cikk zenei hír, melyet az MTI adott ki, és a hirado.hu-n megtalálható. A hír beszámol róla, hogy Deák Bill Gyula felépült, újra koncertezik, nagyobb koncertre készül Budapesten, valamint a cikk röviden ismerteti eddigi pályáját. Eredményeimet a 3. táblázatban foglaltam össze. A jobb oldali első négy szót összeolvasva éppen a zenekar neve jön ki, az alatta levő szavak pedig mutatják, hogy zenekarával májusban Budapesten játszik egy koncerten. Több szó utal a tartandó koncert leendő vendégeire (Póka, Tátrai, ott, lesz stb.). A gyakorisági módszer mellett szól viszont az énekes és az ismét szavak megjelenése a listában.

Szógyakoriság Kapcsolatszám

Bill 9 Deák 191

Deák 8 Bill 191

Blues 6 Blues 142

Gyula 6 Band 122

Band 4 Gyula 121

koncert 4 Tag 113

ERDEI TAMÁS:A HÁLÓZATELMÉLET GYAKORLATI ALKALMAZÁSAI NYELVÉSZETI TERÜLETEN 125

Tag 4 Játszik 87

budapest 3 Koncert 72

Énekes 3 Zenekar 72

Hobo 3 Budapest 71

Ismét 3 Volt 69

Játszik 3 Május 67

Király 3 Vezető 67

Május 3 Ott 67

Volt 3 Lesz 67

zenekar 3 Hobo 62

Dobos 2 Póka 61

Első 2 Tátrai 61

Év 2 Király 60

Fellép 2 Pedig 55

3. táblázat

Ismét koncertezik Deák Bill Gyula Összefoglalás

A kapcsolatszám-elemző módszer többnyire pontosabbnak bizonyult a szógyakorisági módszernél: a cikkek tartal-mát pontosabban adta vissza. Láttunk rá példát, hogy nem minden fontos tartalmi szó esetében jobb a szógyakori-sági módszernél, mégis jobb annyival, hogy célszerű legyen továbbgondolni, fejleszteni.

Ilyen fejlesztés lehet a jövőben a pontosabb modellezés. Jelölni lehetne a kapcsolatok súlyát. A fentebb hasz-nált módszernél a súlyozás annyiban jelenik meg, hogy ha két szó többször szerepelt ugyanazon mondatban, azt több kapcsolatként számoltam. Az is látható, hogy a pontos tartalomelemzéshez további lépésekre, az eredmények további feldolgozására lehet szükség. Célszerű lenne valamely gépi szótövezőt is igénybe venni, hogy nagyobb szövegekre is alkalmazható legyen a módszer. Végül az így előállított nagyobb szöveghálózatok egyéb tulajdonsá-gait is lehetne elemezni, elsősorban azt, hogy ezek skálafüggetlenek-e.

IRODALOM

Barabási A.-L. 2006. A hálózatok tudománya: a társadalomtól a webig. Magyar Tudomány 2006. évf. 11. szám [http://www.matud.iif.hu/06nov/03.html – 2013.04.18.]

Barabási A.-L. 2008. Behálózva. A hálózatok új tudománya. Második, bővített, átdolgozott kiadás. Budapest: Helikon Kiadó.

Crystal, D. 2003. A nyelv enciklopédiája. Budapest: Osiris Kiadó. 115–116.

Csermely P. 2005. A rejtett hálózatok ereje. Budapest: Vince Kiadó.

Dominich S., Kiezer T. 2005. Hatványtörvény, „kis világ” és magyar nyelv. Alkalmazott Nyelvtudomány V. évf. 1–2. szám. 5–24 Kovács L. 2007. Mentális lexikon és kis világok. Alkalmazott Nyelvtudomány VII. évf. 1–2. szám. 141–150.

Kovács L. 2011. Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban. Budapest: Tinta Könyvkiadó.

Lengyel Zs. 2012. Szóról szóra. Szóasszociációs vizsgálatok. Budapest: Gondolat Kiadó.

FORRÁSOK

Márton garasa. Heti Válasz. [http://hetivalasz.hu/gasztronomia/marton-garasa-56806/ – 2013.04.18.]

Kínai végjáték. Zsaru Magazin 2013. évf. 12. szám. 22–23.

Ismét koncertezik Deák Bill Gyula. [http://www.hirado.hu/Hirek/2013/04/29/16/Ismet_koncertezik_Deak_Bill_Gyula.aspx – 2013.04.18.]

KECSKEMÉTI JUDIT

Szegedi Tudományegyetem, Bölcsészettudományi Kar, Magyar Nyelv és Irodalom Tanszék, Szeged

kmetijudit@gmail.com

Olvasási és szövegértési képességek vizsgálata tipikus nyelvi

Outline

KAPCSOLÓDÓ DOKUMENTUMOK