Diszkusszió - MSZNY 2015

6 Summary

5. Diszkusszió

Szeged, 2015. január 15–16. 79

80 XI. Magyar Számítógépes Nyelvészeti Konferencia tudnak nyújtani a lehetséges FX-ekre, és így a kevésbé gyakori célnyelvi FX-ek megtalálására is részben megoldást ad.

A 2. táblázat alapján elmondhatjuk, hogy a nyelvadaptáció minden esetben felülmúlta az angol nyelven belüli eredményeket. Mivel az angol korpuszrész tar-talmazza a legkevesebb FX-et, nem meglepő, hogy a gépi tanuló modell jobb eredményt képes elérni, ha a tanító halmazba több példa kerül, még ha ezek más nyelvből származnak is.

Ha a különféle nyelveken elért eredményeket vetjük össze egymással, látszik, hogy a német alapvetően különbözik a többi nyelvtől. Itt a nyelvközi mérések nyújtották a legalacsonyabb teljesítményt, elsődlegesen a gyenge fedési értékek-nek köszönhetően. Ez összefüggésben állhat a korábban már említett okokkal, nevezetesen, hogy a németben nagyon magas az egyszer előforduló FX-ek ará-nya, továbbá itt a legváltozatosabbak az FX-igék a négy vizsgált nyelv közül. Így tehát a más nyelvű adatokon tanított gépi tanuló modellek nem képesek megfe-lelő fedést elérni, mivel nincsenek olyan nagyon gyakori FX-ek, melyek lefednék az adatok jelentős hányadát. Az is látszik az adatokból, hogy az angol és ma-gyar korpusz unióján tanított modell teljesít a legjobban a nyelvközi méréseket tekintve a német esetében. Ez a két nyelv jellegzetességeinek köszönhető: amikor csak a magyar adatokon tanítottunk, akkor értük el a legmagasabb pontossá-got (85,37%), és a legjobb fedést (25,04%) akkor értük el, amikor csak angol adatokon tanítottunk.

A spanyol eredményeket tekintve észrevehetjük, hogy a legjobb fedési értéket a nyelven belüli mérés eredményezte, így a spanyol FX-ek megtalálása más nyelvű adatok alapján nehéznek bizonyul: csupán a pontossági értékek javulnak a más nyelvű tanító adatok használatával. Valószínűleg ebben a tekintetben a spanyol a némethez hasonlít: a spanyolban is viszonylag magas az egyszer előforduló FX-ek és FX-igék aránya, így a más nyelvű adatok nem tudták segíteni a gépi tanuló eljárást a ritka példák megtalálásában. Továbbá, a nyelvadaptáció eredményei is átlagosan csak 2,75 százalékponttal magasabbak, mint a nyelven belüli mérés esetében.

Ami a magyart illeti, a legsikeresebb nyelvközi kísérletnek az angol mint forrásnyelv alkalmazása bizonyult, míg az angol és spanyol adatok uniója adta a legmagasabb pontosságot. Ezt az magyarázza, hogy az angol modell is nagyon magas pontosságot ért el a nyelven belüli kísérlet során is, így az angol adatokból a modell meg tudja tanulni, hogyan válassza ki a jelöltekből a tényleges FX-eket. Mindemellett, a német adatokon tanított modell magas fedési értéket képes elérni, valószínűleg a korpuszban levő FX-ek változatossága miatt.

6. Összegzés

Ebben a munkában bemutattuk nyelvfüggetlen eljárásunkat félig kompozicioná-lis szerkezetek azonosítására. Módszerünk első lépésben a lehetséges jelölteket nyeri ki a szövegekből szintaktikai jellemzőkre építve, majd egy gépi tanuló mo-dell kiválasztja ezek közül a tényleges FX-eket. Eljárásunkat a 4FX korpuszon teszteltük.

Szeged, 2015. január 15–16. 81 A legtöbb esetben a gépi tanuláson alapuló keresztmérésekkel néhány száza-lékponttal jobb eredményt sikerült elérni, mint a célnyelvi szótárillesztés segít-ségével, például az angol nyelv esetében a különbség 8 százalékpontnyi az F-mértéket tekintve. Ez azt mutatja, hogy a gépi tanuló megközelítésünk még akkor is hatékonyabb az egyszerű szótárillesztésnél, ha a tanító halmaz és a teszthalmaz eltérő nyelvű. A nyelvadaptációval elért eredmények megközelítik, sőt bizonyos esetekben meg is haladják 0,5-1 százalékponttal a tízszeres kereszt-validációval elért eredményeket: például az angol nyelv esetében a legjobb ered-ményt a spanyol–német adathalmazról adaptálva értük el. Mindez arra utal, hogy a nyelvadaptációs technikák sikeresen alkalmazhatók a többszavas kifeje-zések automatikus azonosításában, különösen akkor, ha a célnyelven csak kis mennyiségű annotált adat áll rendelkezésre.

A későbbiekben szeretnénk az egyes nyelvek sajátságaira építve jellemzőinket bővíteni és a módszert más nyelvekre is kiterjeszteni.

Köszönetnyilvánítás

A jelen kutatás a futurICT.hu nevű, TÁMOP-4.2.2.C-11/1/KONV-2012-0013 azonosítószámú projekt keretében az Európai Unió támogatásával és az Európai Szociális Alap társﬁnanszírozásával valósult meg.

Hivatkozások

1. Vincze, V., Nagy T., I., Farkas, R.: Identifying English and Hungarian Light Verb Constructions: A Contrastive Approach. In: Proceedings of ACL 2013, Soﬁa, Bulgaria, ACL (2013) 255–261

2. Rácz, A., Nagy T., I., Vincze, V.: 4FX: Light Verb Constructions in a Multilingual Parallel Corpus. In: Proceedings of LREC’14, Reykjavik, Iceland, ELRA (2014) 3. Tan, Y.F., Kan, M.Y., Cui, H.: Extending corpus-based identiﬁcation of light verb

constructions using a supervised learning framework. In: Proceedings of MWE 2006, Trento, Italy, ACL (2006) 49–56

4. Stevenson, S., Fazly, A., North, R.: Statistical Measures of the Semi-Productivity of Light Verb Constructions. In: MWE 2004, Barcelona, Spain, ACL (2004) 1–8 5. Van de Cruys, T., Moirón, B.n.V.: Semantics-based multiword expression

extrac-tion. In: Proceedings of MWE 2007, Morristown, NJ, USA, ACL (2007) 25–32 6. Vincze, V.: Semi-Compositional Noun + Verb Constructions: Theoretical

Quest-ions and Computational Linguistic Analyses. PhD thesis, University of Szeged, Szeged, Hungary (2011)

7. Diab, M., Bhutada, P.: Verb Noun Construction MWE Token Classiﬁcation. In:

Proceedings of MWE 2009, Singapore, ACL (2009) 17–22

8. Nagy T., I., Vincze, V., Berend, G.: Domain-Dependent Identiﬁcation of Multiword Expressions. In: Proceedings of RANLP 2011, Hissar, Bulgaria, RANLP 2011 Organising Committee (2011) 622–627

9. Vincze, V., Nagy T., I., Zsibrita, J.: Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven. In Tanács, A., Vincze, V., eds.: VIII. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, Szegedi Tudományegyetem (2011) 59–70

82 XI. Magyar Számítógépes Nyelvészeti Konferencia 10. Tu, Y., Roth, D.: Learning English Light Verb Constructions: Contextual or

Sta-tistical. In: Proceedings of MWE 2011, Portland, Oregon, USA, ACL (2011) 31–39 11. Nagy T., I., Vincze, V., Farkas, R.: Full-coverage Identiﬁcation of English Light Verb Constructions. In: Proceedings of the Sixth International Joint Conference on Natural Language Processing, Nagoya, Japan, Asian Federation of Natural Lan-guage Processing (2013) 329–337

12. Bohnet, B.: Top accuracy and fast dependency parsing is not a contradiction. In:

Proceedings of Coling 2010. (2010) 89–97

13. Surdeanu, M., Johansson, R., Meyers, A., Màrquez, L., Nivre, J.: The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies. In: Proce-edings of the Twelfth Conference on Computational Natural Language Learning, Association for Computational Linguistics (2008) 159–177

14. Brants, S., Dipper, S., Eisenberg, P., Hansen-Schirra, S., König, E., Lezius, W., Rohrer, C., Smith, G., Uszkoreit, H.: TIGER: Linguistic interpretation of a German corpus. Research on Language and Computation2(4) (2004) 597–620

15. Marimon, M., Fisas, B., Bel, N., Villegas, M., Vivaldi, J., Torner, S., Lorente, M., Vázquez, S., Villegas, M.: The IULA Treebank. In Calzolari, N., Choukri, K., Declerck, T., Doğan, M.U., Maegaard, B., Mariani, J., Odijk, J., Piperidis, S., eds.: Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), Istanbul, Turkey, European Language Resources Association (ELRA) (2012) 1920–1926

16. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP. (2013) 763–771 17. Vincze, V., Szauter, D., Almási, A., Móra, Gy., Alexin, Z., Csirik, J.: Hungarian

Dependency Treebank. In: Proceedings of LREC 2010. (2010)

18. McDonald, R., Nivre, J., Quirmbach-Brundage, Y., Goldberg, Y., Das, D., Ganchev, K., Hall, K., Petrov, S., Zhang, H., Täckström, O., Bedini, C., Ber-tomeu Castelló, N., Lee, J.: Universal dependency annotation for multilingual parsing. In: Proceedings of the 51st Annual Meeting of the Association for Comp-utational Linguistics (Volume 2: Short Papers), Soﬁa, Bulgaria, Association for Computational Linguistics (2013) 92–97

19. Vincze, V.: Light Verb Constructions in the SzegedParalellFX English–Hungarian Parallel Corpus. In: Proceedings of LREC 2012, Istanbul, Turkey (2012)

20. Krenn, B.: Description of Evaluation Resource – German PP-verb data. In: Pro-ceedings of MWE 2008, Marrakech, Morocco (2008) 7–10

21. Kolesnikova, O., Gelbukh, A.: Supervised machine learning for predicting the meaning of verb-noun combinations in Spanish. In: Advances in Soft Computing.

Springer (2010) 196–207

22. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I.H.: The WEKA data mining software: an update. SIGKDD Explorations 11(1) (2009) 10–18

23. Mel’čuk, I.: Esquisse d’un modèle linguistique du type "Sens<->Texte". In: Problè-mes actuels en psycholinguistique. Colloques inter. du CNRS, no. 206, Paris, CNRS (1974) 291–317

Szeged, 2015. január 15–16. 83

Lexikális behelyettesítés magyarul

Takács Dávid¹, Gábor Kata²

1Prezi takdavid@gmail.com

2INRIA kata.gabor@inria.fr

Kivonat Cikkünkben a lexikális behelyettesítési feladat (lexical substi-tution) magyarra adaptálását és két különböző megoldásának tesztelését tárgyaljuk. A lexikális behelyettesítés célja olyan algoritmus megalkotása, mely képes egy lexikális egység egy-egy mondatbeli előfordulását másik egységgel helyettesíteni olyan módon, hogy a mondat eredeti jelentését a lehető legjobban megőrízze. A feladat általunk kipróbált változatában az algoritmusnak kell elvégeznie a behelyettesítésre javasolt jelöltek generá-lását, valamint a szövegkörnyezetbe legjobban illeszkedő lexikális egység kiválasztását. A kiértékelés során a rendszer által javasolt jelölteket an-notátorok által adott válaszokkal vetjük össze. A behelyettesítési feladat magyarra alkalmazásának célja, hogy felmérjük a disztribúciós szemanti-kai módszerek működésének hatékonyságát, valamint - a más nyelveken végzett kísérletekkel összevetve - képet kapjunk az esetlegesen felmerülő magyar-speciﬁkus kihívásokról: a rendelkezésre álló erőforrásokról, illetve a nyelvi jellegzetességekből adódó problémákról.

Kulcsszavak: lexikális behelyettesítés, lexikális szemantika, disztribú-ciós szemantika

1. Bevezetés

A lexikális szemantikai kutatások, ezen belül a disztribúciós szemantika egyre nagyobb teret nyer a számítógépes nyelvészet különböző ágaiban (pl. szinonima-detektálás, szemantikai relációk tanulása, ontológiák/lexikai adatbázisok auto-matikus építése, dokumentum-kategorizálás). A korpuszból kinyert vektoriális reprezentációk kiértékelésének egyik lehetséges módja az eredmények integrálása valamilyen nyelvtechnológiai alkalmazásba, ám erre nem minden esetben nyílik közvetlen lehetőség. Ennek megfelelően többféle kiértékelési feladat és gold stan-dard létezik a témában (l. SemEval kampányok). A vektoros szemantikai repre-zentációk lehetővé teszik, hogy a szavak jelentése/szemantikai tartalma közötti hasonlóságot, vagy éppen a szisztematikus eltéréseket számszerűsítsük. Egyes kiértékelési szabványok az annotátorok által megadott (szintén numerikus) sze-mantikai hasonlósági értékeket [21] vagy plauzibilitási ítéleteket [19] használnak.

A lexikális behelyettesítés előnye az előbbi kiértékelési módszerekkel szemben, hogy az annotátorok számára természetesebb, a nyelvi tudást közvetlenebbül mozgósító feladatot jelent, és nem támaszkodik előre meghatározott jelentés-tárakra vagy nyelvészeti deﬁníciókra (szemben például a hagyományos WSD

84 XI. Magyar Számítógépes Nyelvészeti Konferencia feladattal).

A lexikális behelyettesítés [14,5] célja olyan algoritmus megalkotása, mely ké-pes egy lexikális egység (egyszerű szó, többszavas kifejezés) egy-egy mondatbeli előfordulását másik egységgel helyettesíteni olyan módon, hogy a mondat eredeti jelentését a lehető legjobban megőrizze. A feladat általunk kipróbált változatá-ban az algoritmusnak kell elvégeznie a behelyettesítésre javasolt jelöltek (első-sorban, de nem kizárólag szinonimák) generálását, valamint a szövegkörnyezetbe legjobban illeszkedő lexikális egység kiválasztását. A kiértékelés során a rend-szer által javasolt jelölteket annotátorok által adott válaszokkal vetjük össze. A behelyettesítési feladat magyarra alkalmazásának célja, hogy felmérjük a lexiká-lis/disztribúciós szemantikai módszerek működésének hatékonyságát, valamint a más nyelveken végzett kísérletekkel összevetve képet kapjunk az esetlegesen fel-merülő magyar-speciﬁkus kihívásokról: a rendelkezésre álló erőforrásokról, illetve a nyelvi jellegzetességekből adódó problémákról.

A lexikális behelyettesítés jellemzően két részfeladatra osztható. Az első lé-pés a jelöltek kinyerése egy erre alkalmas jelentés- vagy szinonima adatbázisból (általában WordNetből), illetve korpuszból disztribúciós módszerekkel, pl. vek-toriális közelség szerint. Bár sok kritika fogalmazódott meg a WordNet alkalmas-ságát illetően (elsősorban jelentésegyértelműsítési kontextusban [25,10] illetve a magyarra [9]), az angol nyelvű lexikális behelyettesítési verseny (SemEval 2007) során a legjobbnak bizonyult módszerek mégis mind támaszkodnak a WordNetre [8,13]. A második lépés a jelöltek rangsorolása aszerint, hogy melyik illeszkedik legjobban az adott szövegkörnyezetbe. Ez a feladat közel áll a jelentésegyértelmű-sítéshez, ám annotált szinonima-tár hiányában nem támaszkodhatunk felügyelt tanítási módszerekre. Lesk szótári deﬁníciókat [11], Aguirre és Rigau WordNet alapú távolsági mértékeket [1], Carrol és McCarthy szemantikai szelekciós infor-mációkat [4] használ az egyértelműsítéshez. A disztribúciós szemantikában hasz-nált vektoriális szó-reprezentációk is alkalmasak rá, hogy szavak vagy nagyobb szövegegységek közötti hasonlósági mértékeket számítsunk belőlük. Egyes kuta-tások látens szemantikai dimenziókat alkalmaznak a szójelentések automatikus elkülönítésére és kontextusbeli egyértelműsítésére [12,23]. A szavak elosztott rep-rezentációján (distributed lexical representations vagyword embedding) alapuló nyelvmodellek [16] által generált vektoriális reprezentációk is alkalmasak arra, hogy rajtuk értelmezhető közelségi metrikák alapján döntsünk a szavak szeman-tikai közelségéről. Ezek a módszerek több SemEval versenyen - szóhasonlósági és szóanalógiás feladatok esetében - jól teljesítettek (Semeval 2012, 2014). A word2vec [16] és a GloVe [20] módszerek a szavakhoz vagy tetszőleges nagyobb egységekhez egy valós vektortérbeli vektort rendelnek úgy, hogy az így létrejött reprezentációra két tulajdonság jellemző: egyrészt az egymáshoz közel eső sza-vak szemantikai, illetve morfológiai értelemben is közeliek, másrészt a vektorok közötti vektoriális különbségek konzisztensek, és egyik szópárról a másikra át-vihetők. Jellegzetes példa a szópárok között kinyerhető analógiás hasonlóságra:

v(king) − v(queen) = v(man) − v(woman). Ez a két tulajdonság indokolja a

Szeged, 2015. január 15–16. 85 módszerek közvetlen használhatóságát a szószemantikai feladatokban. A behe-lyettesítéses feladaton legújabban Ferret [6] végzett kísérletet francia nyelvre a word2vec által generált reprezentáció felhasználásával.

Kísérletünkben létrehozunk egy ilyen vektoros reprezentációt magyar sza-vakra, és ennek használhatóságát mindkét részfeladatra kipróbáljuk. Másod-sorban egy WordNet alapú módszerrel próbálkozunk [7], mely a WordNet-beli lemmákat, illetve a köztük deﬁniált hierarchikus kapcsolatokból származó in-formációt kombinálja a disztribúciós szemantika és a dokumentumkategorizá-lás területén használt eljárásokkal. A célszó különböző jelentéseit és az ezek-hez tartozó lexikai egységeket a WordNetből nyerjük ki. A WordNet-jelentések klaszterezése után a jelentéseket körülvevő releváns csomópontok körbejárásá-val tematikus kategóriákat képezünk, melyekhez ezután a korpuszból gyűjtünk kategória-speciﬁkus kontextusokat. Az egyértelműsítés során a jelöltek vektoros reprezentációját vetjük össze a kontextus szavaival. Végül egy hibrid módszert is kipróbálunk, mely a WordNetből kinyert jelölteket kizárólag korpusz alapú disztribúciós információ felhasználásával rangsorolja.

In document MSZNY 2015 (Pldal 87-93)