XIII. Magyar Számítógépes Nyelvészeti Konferencia
MSZNY 2017
Szerkesztette:
Vincze Veronika
Szeged, 2017. január 26-27.
http://rgai.inf.u-szeged.hu/mszny2017
ISBN: 978-963-306-518-1
Szerkesztette: Vincze Veronika vinczev@inf.u-szeged.hu
Felelős kiadó: Szegedi Tudományegyetem, Informatikai Intézet 6720 Szeged, Árpád tér 2.
Nyomtatta: JATEPress
6722 Szeged, Petőfi Sándor sugárút 30–34.
Szeged, 2017. január
Előszó
2017. január 26-27-én tizenharmadik alkalommal rendezzük meg Szegeden a Magyar Számítógépes Nyelvészeti Konferenciát. A konferencia fő célkitűzése a kezdetek óta állandó: a nyelv- és beszédtechnológia területén végzett legújabb, illetve folyamat- ban levő kutatások eredményeinek ismertetése és megvitatása, ezen felül lehetőség nyílik különféle hallgatói projektek, illetve ipari alkalmazások bemutatására is.
Örömet jelent számunkra, hogy a hagyományokat követve a konferencia idén is nagyfokú érdeklődést váltott ki az ország nyelv- és beszédtechnológiai szakemberei- nek körében. Idén először teljes munkák beküldésével lehetett jelentkezni a konfe- renciára, melyek alapos elbírálása után döntött a programbizottság a cikkek elfoga- dásáról. A nagy számban beérkezett tudományos cikkek közül idén a programbizott- ság 26 előadást, 5 poszter-, illetve 4 laptopos bemutatót fogadott el. A tavalyi évhez hasonlóan, egyes témákat mind az előadások, mind pedig a laptopos bemutatók között is megtalálunk, ezzel is lehetőséget adva a kutatási témák minél szélesebb körű bemutatására. A programban a magyar számítógépes nyelvészet rendkívül széles skálájáról találhatunk előadásokat a számítógépes morfológiától kezdve a beszédtechnológián át a szentimentelemzésig. Mindemellett a magyar nyelvtechno- lógiai műhelyek együttműködésében megvalósult, egy egységes magyar előfeldolgozó láncot kifejlesztő e-magyar.hu projekt eredményei bemutatásának is külön szekciót szentelünk.
Örömünkre szolgál az a tény is, hogy Labádi Gergely, a Szegedi Tudományegyetem Magyar Irodalmi Tanszékének docense elfogadta meghívásunkat, és a digitális böl- csészetről szóló plenáris előadása is gyarapítja a konferencia résztvevőinek szakmai ismereteit.
Az idei évben – reményeink szerint új hagyományt teremtve – szeretnénk külön- díjjal jutalmazni a konferencia legjobb cikkét, mely a legkiemelkedőbb eredmények- kel járul hozzá a magyarországi nyelv- és beszédtechnológiai kutatásokhoz. A díj anyagi hátterét az MTA Nyelvtudományi Intézete biztosítja, amiért ezúton is hálás köszönetet mondunk. Továbbá szeretnénk megköszönni a programbizottság és a szervezőbizottság minden tagjának áldozatos munkájukat, nélkülük nem jöhetett volna létre a konferencia.
Csirik János Farkas Richárd Simon Eszter Vincze Veronika Szeged, 2017. január
Szeged, 2017. január 26–27. v
Tartalomjegyzék I. Információkinyerés
Ablak által világosan -- Vonzatkeret-egyértelműsítés az igekötők és az infinitívuszi vonzatok segítségével ... 3 Vadász Noémi, Kalivoda Ágnes, Indig Balázs
Főnévi események automatikus detektálása függőségi elemző és WordNet alkalmazásával magyar nyelvű szövegeken ... 13 Subecz Zoltán
A Dologfelismerő ... 25 Novák Attila, Siklósi Borbála
Minőségbecslő rendszer egynyelvű természetes nyelvi elemzőhöz .... 37 Yang Zijian Győző, Laki László János
II. e-magyar előadások
Az e-magyar digitális nyelvfeldolgozó rendszer ... 49 Váradi Tamás, Simon Eszter, Sass Bálint, Gerőcs Mátyás, Mittelholcz Iván, Novák Attila, Indig Balázs, Prószéky Gábor, Farkas Richárd, Vincze Veronika
emToken: Unicode-képes tokenizáló magyar nyelvre ... 61 Mittelholcz Iván
Az emMorph morfológiai elemző annotációs formalizmusa ... 70 Novák Attila, Rebrus Péter, Ludányi Zsófia
Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca ... 79 Sass Bálint, Miháltz Márton, Kundráth Péter
emLam – a Hungarian Language Modeling baseline ... 91 Nemeskey Dávid Márk
vi XIII. Magyar Számítógépes Nyelvészeti Konferencia
e-Magyar beszédarchívum ... 103 Kornai András, Szekrényes István
III. Beszédtechnológia
Automatikus frázisdetektáló módszereken alapuló patológiás beszédelemzés magyar nyelven... 113 Tündik Máté Ákos, Kiss Gábor, Sztahó Dávid, Szaszák György
Depresszió súlyosságának becslése beszédjel alapján magyar nyelven ... 125 Kiss Gábor, Simon Lajos, Vicsi Klára
Neurális hálók tanítása valószínűségi mintavételezéssel nevetések felismerésére ... 136 Gosztolya Gábor, Grósz Tamás, Tóth László, Beke András, Neuberger Tilda
Élő labdarúgó-közvetítések gépi feliratozása ... 146 Tarján Balázs, Szabó Lili, Balog András, Halmos Dávid, Fegyó Tibor, Mihajlik Péter
Mély neuronhálóba integrált spektro-temporális jellemzőkinyerési módszer optimalizálása ... 158 Kovács György, Tóth László
Mély neuronhálós beszédfelismerők GMM-mentes tanítása ... 170 Grósz Tamás, Gosztolya Gábor, Tóth László
Beszédszintézis ultrahangos artikulációs felvételekből mély neuronhálók segítségével ... 181 Csapó Tamás Gábor, Grósz Tamás, Tóth László, Markó Alexandra A különböző modalitások hozzájárulásának vizsgálata a témairányítás eseteinek osztályozásához a HuComTech korpuszon ... 193 Kovács György, Váradi Tamás
Szeged, 2017. január 26–27. vii
Magyar nyelvű WaveNet kísérletek ... 205 Zainkó Csaba, Tóth Bálint Pál, Németh Géza
IV. Szentimentelemzés
A kognitív disszonancia narratív markereinek azonosítása termékleírásokban ... 219 Pólya Tibor
Szentiment- és emóciószótárak eredményességének mérése emóció- és szentimentkorpuszokon ... 228 Drávucz Fanni, Szabó Martina Katalin, Vincze Veronika
Entitásorientált véleménykinyerés magyar nyelven... 240 Huszti Dániel, Ács Judit
A szentimentérték módosulásának vizsgálata szemantikai–pragmatikai szempontból annotált korpuszon ... 251 Szabó Martina Katalin, Nyíri Zsófi, Morvay Gergely, Lázár Bernadett
V. Többnyelvűség
Négy hatás alatt álló nyelv - Korpuszépítés kis uráli nyelvekre ... 263 Simon Eszter
First Experiments and Results in English-Hungarian Neural Machine Translation ... 275 Tihanyi László, Oravecz Csaba
Word Embedding-based Task adaptation from English to Hungarian ... 287 Szántó Zsolt, Carlos Ricardo Collazos García, Farkas Richárd
viii XIII. Magyar Számítógépes Nyelvészeti Konferencia
VI. Poszterek
A 2016-os tanártüntetések szövegeinek feldolgozása és adatvizualizációja interaktív dashboard segítségével ... 299 Balogh Kitti, Fülöp Nóra, Szabó Martina Katalin
Folytonos paraméterű vokóder rejtett Markov-modell alapú beszédszintézisben - magyar nyelvű kísérletek 12 beszélővel ... 308 Csapó Tamás Gábor, Németh Géza
Szintaktikai címkekészletek hatása az elemzés eredményességére ... 316 Simkó Katalin Ilona, Kovács Viktória, Vincze Veronika
Magyar nyelvű szó- és karakterszintű szóbeágyazások ... 323 Szántó Zsolt, Vincze Veronika, Farkas Richárd
Egy vakmerő digitális lexikográfiai kísérlet: a CHDICT nyílt kínai-magyar szótár ... 329 Ugray Gábor
VII. Laptopos bemutatók
Szinkronizált beszéd- és nyelvultrahang-felvételek a SonoSpeech rendszerrel ... 339 Csapó Tamás Gábor, Deme Andrea, Gráczi Tekla Etelka, Markó Alexandra, Varjasi Gergely
A magyar helyesírás-ellenőrzők mai állása ... 347 Naszódi Mátyás
Szóbeágyazási modellek vizualizációjára és böngészésére szolgáló webes felület ... 355 Novák Attila, Siklósi Borbála, Wenszky Nóra
Függőségi elemzésen alapuló magyar nyelvű keresőrendszer ... 363 Zsibrita János, Farkas Richárd, Vincze Veronika
Szeged, 2017. január 26–27. ix
VIII. Angol nyelvű absztraktok
State of the Hungarian Spell Checkers ... 373 Mátyás Naszódi
Syntactic Tagsets Affect Parsing Efficiency ... 374 Katalin Ilona Simkó, Viktória Kovács, Veronika Vincze