• Nem Talált Eredményt

7. Kísérletek

7.6. Hibaelemzés

A kísérletek alapján látható, hogy az Exp1, tehát a tesztfájlhoz azonos arányú negatív példát tartalmazó tanítófájl segítségével épített modell eredményein kívül, az épített modellek a pontosság tekintetében gyengébben teljesítenek. A pontosság azt mutatja meg, hogy az anaforikusnak ítélt párok közül mennyi volt ténylegesen anaforikus. Jelen esetben a rossz pontossági értéknek két oka van, vagy egy nem visszautaló névmáshoz azonosít az osztályozó antecedenst, vagy a visszautaló névmáshoz hibásan azonosít az osztályozó antecedenst. Ahhoz, hogy megvizsgáljam a leggyakoribb hibákat, először a visszautaló és nem visszautaló névmások arányát hasonlítottam össze, majd ehhez hasonlítom a fals pozitív esetek számát. Mind a három névmás esetében gyakori a nem visszautaló névmáshoz történő antecedens azonosítása, azaz majd minden a szövegben előforduló névmáshoz azonosítanak az osztályozók legalább egy antecedenst. Tehát a hibák többségét az okozza, hogy az osztályozó nem ismeri fel a nem visszautaló névmásokat.

A mutató és vonatkozó névmások esetében a nem visszautaló és visszautaló névmások aránya helytállónak tűnik. A mutató névmások között gyakori lehet a deixis, illetve a nem főnévi csoportra, hanem teljes propozícióra való utalás, ugyanez igaz a vonatkozó névmásra is, ami gyakran teljes tagmondatra utal vissza. A harmadik személyű személyes névmás esetében azonban kimagaslóan sok a nem visszautaló névmások aránya, ami nem feltétlenül várható a korpuszokat alkotó szövegek típusából. Tehát meg kell vizsgálni a nem visszautaló, harmadik személyű személyes névmásokat a tesztfájlokban.

A tesztfájlok vizsgálata után a következő hibákat fedeztem fel, amelyek befolyásolták a modellek eredményességét: 1 A tesztfájlokban gyakoriak a harmadik személyű, teljes propozícióra utaló személyes névmások, amelyeknek ugyan van antecedense, de nem főnévi csoport, a leggyakrabban ezek az utána és előtte szavak.

83) (…) ott maradtunk még 10 percet, de utána feleslegesnek tartottuk magunkat.

2 Az általam kialakított módszertan során először főnévi csoportokból álló párokat generálunk, és ezután vizsgáljuk meg, hogy az adott főnévi csoport anaforikus-e vagy sem.

Abban az esetben, ha az annotáció nem a teljes főnévi csoportot fedte le, hanem csak egy részét,

120 tehát a konstituens elemzésben az annotált kifejezés nem NP címkéjű, végeredményben a pár negatívként jelent meg a tesztfájlban. Ez egy technikai jellegű hiba, ami a későbbiek során javítható.

3 A kizárólag harmadik személyű személyes névmási visszautalásokat tartalmazó tesztfájlokból kizártam a többi személyes névmást, a morfológiai elemzés alapján azonban egyes kifejezések: enyém, miénk a fájlokban maradtak a birtokos jel miatt, hozzájuk antecedensként annotálva viszont a mindenkori beszélő volt, így ezek az esetek is negatív példaként kerültek a tesztfájlokba.

4 Előfordultak a tesztfájlokban igekötők is, amelyekhez nem volt antecedens jelölve a szövegben, viszont a morfológiai elemzésben személyes névmásként voltak elemezve: ekkor döbbentem rá, rá se hederítettem.

5 Természetesen az is előfordult, hogy egy-egy visszautalás figyelmetlenségből nem volt annotálva a fájlokban, ezek is negatív példaként jelentek meg a tesztfájlokban.

Összességében elmondható, hogy az általam épített modellek a legtöbb esetben azonosítanak legalább egy antecedenst a névmásokhoz, tehát a nem visszautaló névmások felismerésében nem teljesítenek jól. A pontosság értékének javítása három módon lehetséges.

Egyrészt a korpuszban található fals negatív példák csökkentésével, azaz a technikai jellegű hibák javításával. Ez valószínűleg a fedésen is javítana, hiszen a be nem jelölt visszautalások jelölésével növekedne a pozitív példák aránya a szövegben. Az általam alkalmazott módszertan újragondolása is növelhetné ezt az arányt. Ha nem kizárólag teljes főnévi csoportokat keresnék, hanem főneveket is, akkor azok az esetek is pozitívak lennének, amelyekben csak a főnévi csoport egy része volt beannotálva, azonban ezzel a módszerrel automatikusan nőne a negatív példák száma is, hiszen a módszertan alapján minden esetben hozzá kellene rendelni a névmáshoz párként az összes névmást megelőző főnevet is.

A másik módszer, hogy a tanítófájlokba olyan névmások is bekerüljenek, amelyeknek nincs antecedense egyáltalán a szövegben. A következő lépés, hogy meghatározzuk, hány megelőző főnévi csoportot rendelünk hozzá a nem visszautaló névmáshoz, mint lehetséges pár. Ez azonban azt is eredményezi, hogy a tanítófájlokban még több lesz a negatív példa, ami az algoritmus esetében azt jelenti, hogy még nagyobb a valószínűsége, hogy a pozitív párokat nem ismeri fel az osztályozó, tehát a pontosságon ugyan valószínűleg javít, a fedésen viszont ront.

A harmadik módszer, hogy egy előelemző lépéssel kiszűrjük vagy az összes nem főnévi csoportra visszautaló névmást, tehát azokat is, amelyek tagmondatra utalnak vissza, vagy legalább azokat a névmásként elemzett szavakat, amelyek nem utalnak vissza egyáltalán, például

121 az igekötőket. Ezzel a lépéssel a pontosságon egyedül azok a névmási visszautalások rontanának, amelyeknek van kézzel annotált antecedense a szövegben, de másik főnévi csoportot azonosít hozzá az osztályozó. Ezzel az osztályozó feladatát redukálnánk, hiszen jelenleg fel kell ismernie, ha egy névmás nem visszautaló, valamint a visszautaló névmáshoz azonosítania kell a megfelelő antecedenst, ha a nem visszautaló névmásokat kiszűrnénk, az osztályozónak egyedül az lenne a feladata, hogy a visszautaló névmáshoz azonosítsa a megfelelő antecedenst.

122