Automatikus koreferenciafeloldásra alkalmas rendszerek

5. Az automatikus anaforafeloldás a számítógépes nyelvészeti szakirodalomban

5.3. Gépi tanuláson alapuló rendszerek és kiértékelési lehetőségeik

5.3.2. Automatikus koreferenciafeloldásra alkalmas rendszerek

A koreferenciafeloldás szempontjából problémát jelent a Mention-pair modellel kapcsolatban, hogy kevéssé veszi figyelembe a kontextusból származó információkat, illetve, hogy főleg a lokális koherenciát képes felismerni, hiszen minden anaforához egy antecedenst azonosítunk, a legközelebbit vagy a legbiztosabbra értékeltet. Ez a módszer tehát az anaforafeloldásra alkalmasabb, mint a koreferenciafeloldásra, mivel koreferenciafeloldás során általában egy entitás összes említését keressük. Cardie és Wagstaff nem kizárólag a névmásokkal foglalkozott, céljuk a főnévi csoportok koreferenciakapcsolatainak felismerése volt egy felügyelet nélküli algoritmus segítségével (Cardie–Wagstaff 1999). A koreferenciafeloldásra klaszterezési feladatként tekintettek, azaz nem kizárólag a visszautaló szóból és az antecedenséből álló párokat, hanem teljes láncokat szerettek volna azonosítani. Az ötlet abból a kiindulópontból származik, hogy a koreferens főnévi csoportok ekvivalencia osztályokat képeznek, mivel a koreferencia egy szimmetrikus, reflexív és tranzitív reláció. A megközelítésük lényege, hogy a szövegben minden főnévi csoportot egy jellemzővektorként képzeltek el, és ezen jellemzők alapján csoportosította az algoritmus a főnévi csoportokat osztályokba. Az azonos osztályokba csoportosított főnévi csoportok tekinthetők koreferensnek. A kontextusfüggetlen jellemzők két főnévi csoport eltérő osztályba való sorolását, a kontextusfüggők pedig az azonos osztályba sorolást segítették elő. A módszerüket a MUC-6 koreferencia korpuszon tesztelték, és 53,6-os F-mértéket értek el.

5.3.2.1. Entity-mention modell

A fent említett problémának a megoldására jött létre az Entity-mention koreferencia modell (Luo et al. 2004; Yang et al. 2004), amely nem csak egy antecedens, hanem a teljes koreferencialánc azonosítását tűzte ki célul. A módszer célja, hogy az osztályozó eldöntse, az adott anafora tagja-e

51 egy már létező koreferencialáncnak. Ennek a módszernek a segítségével nem csak egy kifejezés jellemzői alapján kíséreljük meg azonosítani a referenst, hanem a lánc összes korábbi tagja segítségével. Ebben az esetben a modell építésére szolgáló jellemzők a névmás tulajdonságaiból, a névmást megelőző összes azonosított koreferencialánc-tag tulajdonságaiból és a két csoport tulajdonságainak összehasonlításából származnak. A névmást megelőző koreferencialánc-tagok az egyes tulajdonságok tekintetében pedig mindig négy értéket vehetnek fel: 1 minden tagra igaz, 2 a legtöbb tagra igaz, 3 néhány tagra igaz, 4 egyik tagra sem igaz.

A fent ismertetett felügyelt gépi tanulási rendszerek előnye, hogy kisebb korpuszokon is felhasználhatók, így olyan nyelvek esetében is alkalmazhatók, amelyekkel kapcsolatban nem rendelkezünk több tízezer pozitív tanítópéldával a modell építéshez. Ezzel szemben a felügyelet nélküli rendszerek létrehozásához nagyobb mennyiségű adat szükséges.

5.3.2.2. CoNLL-2012 Shared Task

A CoNLL-2012 Shared Task (Pradhan et al. 2012) célja az OntoNotes többnyelvű korpuszon történő koreferenciafeloldás volt. A korpuszban angol, kínai és arab nyelvű szövegek is voltak az annotáció során pedig nem kizárólag főnévi csoportokat jelöltek, így lehetővé vált, az entitás láncokon túl az esemény láncok azonosítása is. A verseny során a MELA kiértékelési metrikát alkalmazták.

Fernandes fa reprezentáción alapuló rendszere (Fernandes–Santos–Milidiú 2012) érte el a legjobb eredményt összességében a három nyelv tekintetében. Soon és munkatársai megközelítésében (Soon–Ng–Lim 2001) a kifejezés párok egy lineáris rendszert modelleznek, amely nem elágazó faként is értelmezhető, ezzel szemben Fernandes és munkatársai megközelítési módszerének lényege, hogy a koreferencia osztályokat elágazó faként reprezentálja. A szöveg minden egyes kifejezése egy csomópont a fában a kifejezések közötti élek pedig a koreferens kapcsolatot mutatják. A gyökér csomópontból kiinduló alfák az egymással koreferens kifejezések klaszterei. A módszer az angol és az arab nyelv tekintetében is a legjobb eredményt érte el a versenyben, az angolra 63,37-es F-mértéket, az arabra pedig 54,22-es F-mértéket ért el.

Björkelund és Farkas rendszere (Björkelund–Farkas 2012) a korábban is említett, kifejezés párokból álló reprezentációt követte verem módszerrel kiegészítve. A módszer az angol nyelvre 61,24, a kínai nyelvre 59,97, az arab nyelvre pedig 53,55-ös F-mértéket ért el.

Martschat rendszere (Martschat et al. 2012) a szövegben szereplő koreferens kapcsolatokat több gráf segítségével modellezte. A gráfokban a csomópontok a kifejezések, az élek pedig a

52 kapcsolatok. A klasztereket mohó algoritmussal határozták meg. A módszer az angol nyelvre 61,31-es F-mértéket ért el.

A kínai nyelv tekintetében fontos még megemlíteni Chen és Ng munkáját (Chen–Ng 2012), amely szabály alapú és tanulás alapú rendszerek előnyeit ötvözve 62,24-es F-mértéket ért el, valamint Yuan és munkatársai módszerét, amely a feladatot több gépi tanulási módszerrel illetve szabály alapú döntésekkel megoldott alfeladatra osztotta, így 60,69-es F-mértéket ért el.

A versenyen azok a módszerek érték el a legjobb eredményeket, amelyek ötvözték a szabály alapú és gépi tanulási módszereket valamint részletesen és aprólékosan megtervezték, hogy a kifejezések mely jellemzőit veszik figyelembe a feloldás során.

Az OntoNotes többnyelvű korpusz és a CoNLL-2012 Shared Task részletesen kidolgozott kiértékelési módszertana lehetővé tette későbbi rendszerek kiértékelését is, valamint a Shared Taskban résztvevő rendszerekkel való összehasonlításukat is.

Durett és Klein 2013-as tanulás alapú rendszere (Durrett–Klein 2013) egyszerű, felszíni szerkezetből kinyerhető, kevés jellemző segítségével 60,3 F értéket ért el. Következő rendszerük (Durrett–Klein 2014) célja már nem kizárólag koreferencia feloldás, hanem teljes entitás vizsgálat volt. A dokumentumon belüli koreferencia feloldáson túl névelem-felismerés és entitáskapcsolás, valamint ezeknek a feladatoknak az összeegyeztetése is megtörtént.

Koreferencia feloldás tekintetében a rendszer 61,7 F értéket ért el.

Björkelund és Kuhn (Björkelund–Kuhn 2014) a tanítóadatbázis teljes kihasználása érdekében Daumé és Marcu rendszerét (Daumé–Marcu 2005) implementálták, így 61,6-os F értéket értek el.

Clark és Manning rendszere (Clark–Manning 2015) a Mention-pair modellből indult ki, kiegészítve azt entitásra vonatkozó információkkal úgy, hogy az egyes említésekre vonatkozó információkat összesítették. A tanulás alapjául használt jellemzők az egyes Mention-pair modellek lesznek, így a több modell a koreferenciát több aspektusból is jellemezni tudja. A módszer segítségével nem az egyes említések, hanem maguk az entitások válnak fontos tényezővé a tanulás során, ennek segítségével 63-as F mértéket értek el.

5.3.2.3. Neurális hálók

Az utóbbi fél évtizedben több kutatás is neurális hálók segítségével készült el (Clark–Manning 2016; Lee et al. 2017; Wiseman–Rush–Shieber 2016). A módszer lényege, hogy a reprezentáció tanulása automatikusan történik, a klaszterezéshez nem szükséges előzetes kézi annotáció az azonos klaszterekhez tartozó kifejezések meghatározásához. A neurális hálózatoknak több rétege

53 van: bementi réteg, rejtett rétegek és a kimeneti réteg. A bementi réteg jelen esetben a nyers, elemzést nem tartalmazó szöveg, a kimeneti réteg pedig a meghatározott klasztereket tartalmazza.

Wiseman, Rush és Shieber rekurrens neurális háló alkalmazásával az egyes említések alapján entitás klaszterek meghatározására törekedtek. A módszer a névmási említések előjelzésére különösen alkalmasnak bizonyult, 64,2-es F mértéket ért el. Clark és Manning koreferencia klaszter párok vektor reprezentációján alapuló rendszere 65,3-as F mértéket ért el.

Lee és munkatársai kutatásának célja end-to-end koreferenciafeloldás volt. Ehhez kizárólag a gold standard korpuszt használták, szintaktikai és kézi előelemzés nélkül, a kifejezéseket pedig vektor beágyazásokkal reprezentálták. A rendszer 68,8-as F mértéket ért el.

In document Névmási anaforafeloldási kísérletek a magyar nyelvben DOKTORI (PhD) ÉRTEKEZÉS Kovács Viktória Témavezető: Dr. Szécsényi Tibor Szeged 2021 (Pldal 54-57)