• Nem Talált Eredményt

Morfológiai idioszinkrázia többszavas kifejezésekben

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Morfológiai idioszinkrázia többszavas kifejezésekben "

Copied!
3
0
0

Teljes szövegt

(1)

420 III. Magyar Számítógépes Nyelvészeti Konferencia

Morfológiai idioszinkrázia többszavas kifejezésekben

Oravecz Csaba, Varasdi Károly, Nagy Viktor1

1 MTA Nyelvtudományi Intézet, Budapest 1068, Benczúr u. 33.

{oravecz,varasdi,nagy}@nytud.hu

Kivonat: A dolgozatban megvizsgáljuk, hogy magyar nyelven egyes szókap- csolatok morfológiailag idioszinkratikus viselkedése, mint lehetséges informá- cióforrás, használható-e többszavas kifejezések korpuszból történ kinyerésére.

Megmutatjuk, hogy legalábbis egyes TSZK típusok esetén, a toldalékolás idio- szinkráziája jól jelzi a szókapcsolat TSZK státuszát illetve idiomatikusságát.

1. Bevezet

A számítógépes nyelvfeldolgozásban az utóbbi id kben számos módszert fejlesz- tettek ki többszavas kifejezések (TSZK) korpuszból történ kinyerésére illetve azo- nosítására [3]. Többségük a korpuszból kinyert pozíciós illetve relációs jelöltlisták [2]

tagjait rangsorolja valamilyen asszociációs mérték segítségével. Olyan nyelvek eseté- ben azonban, melyek morfológiája pl. az angolnál sokkal gazdagabb információfor- rást jelent, a kutatás éppen csak elkezd dött az „ együtt el fordulás” mellett egyéb információ felhasználására [1]. Magyar nyelvre egyes szókapcsolatok morfológiailag idioszinkratikus viselkedése természetesen adódik, mint lehetséges további informá- cióforrás, melyet TSZK-k bizonyos csoportjainak azonosításában fel lehet használni.

A dolgozatban megvizsgáljuk a szókapcsolat jelöltek tagjainak toldalékeloszlásá- ból kinyerhet információ felhasználhatóságát, és esettanulmányokon keresztül megmutatjuk, hogy legalábbis egyes TSZK típusok esetén, a toldalékolás idioszink- ráziája jól jelezheti a szókapcsolat TSZK státuszát illetve idiomatikusságát.

2. A kivonatoló módszer

Egy szósorozatot akkor tekintünk morfológiailag illetve morfoszintaktikailag idioszinkratikusnak, ha egyes tagjainak toldalékeloszlása az adott szókapcsolatban jelent sen eltér a tagok összes el fordulásra vetített toldalékeloszlásától. Ez a megkö- zelítés bizonyos mértékben eltér [1] módszerét l, ahol adott inflexiós jegyek csupán a már azonosított TSZK-n belül kerülnek összehasonlításra, és a jegyek egyes értékei- nek (pl. egyes vagy többes szám) aránya a TSZK morfoszintaktikai preferenciájának jelzésére szolgál. Az általunk alkalmazott eljárás más megközelítésben, általános módszerként kívánja felhasználni a szókapcsolaton kívüli illetve belüli toldalékelosz-

(2)

Szeged, 2005. december 8-9. 421 lást, és az ebb l kinyert információ segítségével próbálja azonosítani a TSZK-t. Ezál- tal független osztályozóként az együtt el forduláson alapuló mértékek helyett, és nem utánuk, mint további feldolgozó lépés kíván szerepelni.

A munkahipotézis a következ . A jelöltlista valamilyen szintaktikai viszonyban ál- ló 2 szavas kombinációkat tartalmaz, ahol szabad morfoszintaktikai jegyeknek nevez- zük azokat a jegyeket, amelyeket nem ez a viszony kényszerít ki (egyeztetéssel vagy kormányzással). Ezek akkor vagy a tagok inherens jegyei, vagy a mondatszerkezet másik frázisa írja el meglétüket. Pl. a „ bedobja ... törölköz t” TSZK-ban a tárgyrag nem szabad, mert az állítmány-tárgy viszony írja el , viszont a törölköz szám- stb.

jegye szabad. Az ige minden lehetséges jegye szabad. A hipotézis az, hogy egy TSZK tag szabad jegyekre vett statisztikai eloszlása eltér az összesített (itt a szót vagy a nem szabad jeggyel ellátott szót összes el fordulását tekintjük) eloszlásától, ha a TSZK tagjaként fordul el , és ez az eltérés jól jelzi a szemantikai átlátszatlanságot.

Lehetséges viszont, hogy pusztán az is megváltoztatja a jegyeloszlást, hogy valami- lyen szintaktikai viszonyban áll a t . Ezért sz kebb környezetre kell az eloszlást vizs- gálni, és a csupán az ugyanazon szintaktikai viszonyban álló alakok eloszlásának különböz ségét figyelembe venni. A tesztet a TSZK mindkét tagjára külön végre lehet hajtani, és így azt is megkaphatjuk, melyik tag jelentése változott meg a TSZK- ba kerüléskor.

3. Statisztikai vizsgálat

Az inflexiós elemzést az 1. táblázat szerint osztjuk fel dimenziókra.

1. táblázat. A különböz szófajoknál figyelembe vett inflexiós jegyek

Szófaj Dimenziók

Névszók szám birtokos

szám/személy anafonikus

possessivus eset fok (mellék-

névnél) Igék mód/id határozottság szám/személy – –

Minden potenciális többszavas kifejezésben (C) a tagok inflexiós eloszlását ezen jegyek mentén parametrizáljuk. Egy paraméter egy jegy (F) – érték (v) párt képvisel.

Minden paraméterhez hozzárendeljük a jegy-érték pár relatív gyakoriságát:

(1) ( )

) )

( ) (

,

|

( c C

C tagja ha w

v w F C c

w F v

P i= j k = i k = j k

Nyilvánvalóan fennáll a következ összefüggés: ( ( =) ) =1.

j

j i

C c

v F

c Ezt az el-

oszlást kell összehasonlítani az összesített P (Fi=vj|wk) eloszlással, vagyis amikor a tagszó el fordulásait nem korlátozzuk arra, hogy tagja legyen a többszavas kifeje-

(3)

422 III. Magyar Számítógépes Nyelvészeti Konferencia zésnek, viszont feltételül kell szabni, hogy ugyanolyan szintaktikai szerkezeti pozíci- óban legyen, mint C-ben (pl. ha a TSZK-ban a tagszó f nevet módosító melléknév, akkor az összesített eloszlásban nem vesszük figyelembe azokat az el fordulásokat, amikor állítmányi szerep ).

(2) ( )

) ) ( ) (

|

( c w

v w F w c

v F P

k j k i k

j

i= = =

A vizsgálatokban több szókapcsolatjelölt toldalékolási mintáját elemeztük. Számos esetben volt felfedezhet összefüggés az eloszlás egyenetlensége és a szósorozat idiomatikussága között, mely mutatja, hogy a tárgyalt megközelítés mindenképpen biztató eredményeket ad. További kutatást igényel viszont az eloszlások összehason- lítását végz legjobb mérték kiválasztása, illetve a poliszémiából származó torz ada- tok ki-küszöbölésének módja is.

Bibliográfia

1. Evert, S., Heid, U., Spranger, K.: Identifying morphosyntactic preferences in collocations.

In: Proceedings of the 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal (2004) 907–910

2. Evert, S., Krenn, B.: Computational approaches to collocations. Introductory course at the European Summer School on Logic, Language, and Information (ESSLLI 2003) (2003) Vi- enna.

3. Krenn, B.: The Usual Suspects: Data-Oriented Models for Identification and Representation of Lexical Collocations. Saarbrücken Dissertations in Computational Linguistics and Lan- guage Technology, Volume 7. PhD thesis, Universität des Saarlandes, Department of Com- putational Linguistics (2000)

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

mányos problémának, mi azok igazi megoldása és azt is, hogy azt hogyan kell megold ani.15 (Más problémákat és más megoldásokat ad az .,akadál yozott esés", mint

[r]

Nagy visszhangra találnak a magyar drámák is, így például Örkény István Macskajátékát a prágai Nemzeti Színházban, Déry Tibor művét (Képzelt riport egy amerikai

A dolgozatban megemlít néhány elképzelést, ilyen például a CBC complex lehetséges ABA kötő szerepe, a foszforiláció/defoszforiláció módosítása, a splicing

A második részben megvizsgáljuk a könyvtári és információs ellátás finanszírozásának lehetséges megosztását a költségvetés, a nonprofit és forprofít szektor

Ugyan is nem az a’ fő tzélunk nékünk , hogy a’ Magyar taníttás által jobb Magya­. rok légyünk 5 m ert ez abból önként

A kiállított munkák elsősorban volt tanítványai alkotásai: „… a tanítás gyakorlatát pe- dig kiragadott példákkal világítom meg: volt tanítványaim „válaszait”

sanguineus fajnév nem használható sensu stricto értelemben (mivel típuspéldánya nem ismert, újat pedig még nem jelöltek ki), a sensu lato pedig sem morfológiailag, sem