Magyar ismeretlenszó-elemző program fejlesztése

(1)

M a g y a r is m e r e tle n s z ó -e le m z ő p r o g r a m fe jle s z té s e

Novák A ttila12, N agy V ik to r2 és O ravecz C saba2 1 M orphoLogic K ft., B u d a p e st

2 MTA N yelvtudom ányi In té z e t, B u d a p e s t {novak, nagy V, o r a v e c z } 9 n y tu d . h u

K i v o n a t N agy korpuszok szám ítógépes feldolgozása so rá n elkerü lh etet

lenül b eleütközünk a b b a a p ro b lém áb a, ho g y a szövegekben szereplő szóalakok igen jelentős részét n em tu d j a a ren d elk ezésre álló m orfoló

giai elem zőprogram elemezni, m e rt h ián y zik a z ad a tb á z isá b ó l a szó töve.

U gyanakkor ezeknek az elem ezhetetlen szóalakoknak a n ag y része ta r ta l

m az toldalékokat, ezért valam ilyen m ó d o n ezeket is elem ezni kell. E nnek a p ro b lém án ak a kezelésére olyan h ib rid e ljá rá s t le h e t alkalm azni, am ely szim bolikus parciális morfológiai elem zőből és egy o lyan sta tisz tik a i alap ú eszközből áll, am ely az első lépésben a szim bolikus ism eretlenszó-elem ző á lta l e lő állíto tt h ipotézisteret a k ív á n t m é rté k ű re szű k íti.

K u lc s s z a v a k : ism eretlenszó-elem zés, m orfológiai elem zés, eloszlások h a sonlósága, statisztik ai egyértelm űsítés

1. B ev ezető

A m agyarhoz hasonló ag g lu tin atív nyelvek szám ítógépes feldolgozása so rán a nyelvben előforduló lehetséges szóalakok igen m agas szám a m ia tt a m orfológiai elem zés alkalm azása gyakorlatilag m egkerülhetetlen. E z a lépés nem h ely ette

síth e tő egyszerű szótárból tö rtén ő lekérdezéssel [1], hiszen egy ilyen szó tárn ak szin te az összes lehetséges szóalakot ta rta lm a z n ia kellene, ez pedig technológi

ailag kezelhetetlen lenne. K ézenfekvő m egoldás egy m orfológiai elem ző eszközt alkalm azni, am ely egy tő tá rra tám aszkodva képes az inflexiós, a p ro d u k tív de- rivációs és szóösszetételi jelenségeket kezelni, v alam in t a d o tt szóalakokhoz a tö

v ü k et hozzárendelni. - '

N agy korpuszok szám ítógépes feldolgozása so rá n viszont kik erü lh etetlen az a problém a, hogy a szövegekben szereplő szóalakok igen jelen tő s részét nem tu d ja a rendelkezésre álló m orfológiai elem zőprogram elem ezni, m ert hiányzik az a d a t

bázisából a szó töve. U gyanakkor ezeknek az elem ezhetetlen szóalakoknak a nagy része ta rta lm a z toldalékokat, ezért valam ilyen m ódon ezeket is elem ezni kellene.

A z ism eretlen szavak elem zését á lta lá b a n valam ilyen sztochasztikus ta n u ló el

já rá sb ó l szárm azó m odellel próbálják m egoldani, am elyet ta n ító korpuszon fej

lesztenek ki. E z a m odell aztán m ég k iegészíthető külső inform ációval is, m int p éld áu l a szókezdő nagybetű m egléte [2]. Ezek az eljáráso k azonban, m ég akkor is, am ikor igen nagy m ennyiségű a n n o tá la tla n ta n ító anyagot képesek használni [3], nehézkesen alkalm azhatók m agyar nyelvre, elsősorban a sokféle és hosszú toldalékszekvenciákból adódó „kevés a d a t” (sp arse d a ta) problém a m ia tt.

(2)

A dolgozat ezért egy m ár létező m orfológiai elem zőn alap u ló szim bolikus ism eretlenszó-elem ző e ljárást m u ta t be, am elyet nagy korpuszból n y ert sta tis z tik ai inform ációt használó m odell egészít ki, m elynek'segítségével a szim bolikus ism eretlenszó-elem ző á lta l generált h ip o tézistér hatékonyan szű k íth ető . A dol

gozat a következőképpen épül fel. A 2. rész rövid leírá st ad a m orfológiai elem zőről. A 3. rész a szim bolikus ism eretlenszó-elem zőt tá rg y a lja , m íg a 4. részben b em u tatju k a tesztelés illetve m odellépítés során h aszn ált a d a to k a t. Az 5. ré sz a különböző param éterekkel fu tta to tt tesztek et írja le, és b e m u ta tja , hogyan leh et

séges a szim bolikus ism eretlenszó-elem ző á lta l generált elem zések szám át nagy korpuszból n y ert szóalak és szufixum sta tisz tik a segítségével csökkenteni. R övid összefoglalás z á rja a dolgozatot a 6. részben.

2. A m orfológiai elem ző

B ár a m orfológiai elem zés kulcsfontosságú a term észetes nyelvfeldolgozásban, különösen ag g lu tin atív jellegű nyelvek esetében, a m orfológiai elem zők m in t kü lönálló nyelvfeldolgozó eszközök kevés figyelm et kap tak az irodalom ban, és leg

tö b b jü k kereskedelm i term ék1. Az általu n k alkalm azott H um or („H igh speed' U nification M orphology”) m orfológiai elem ző szintén egy kereskedelm i cég te r

m éke [6]. Az elem ző klasszikus „egyed-és-elrendezés” stílu sú elem zést [7] végez.

A bem enő szóalakot m orfém ák so ro zatára b o n tja, ahol m indegyikhez egy felszíni alak o t, egy lexikai alakot, illetve egy kategóriacím két rendel. Az elem ző reg u láris szónyelvtannal rendelkezik, így egyszerű m orfém alistaként a d ja m eg a leh etsé

ges elem zéseket, vagyis nem rendel belső szerkezetet az elem zett szóalakhoz. A z elem ző kim enetét az 1. áb ra illu sztrálja.

a n a ly s e r> le h e tő s é g e k b e n

le h e tő s é g [S _ F N ]+ e k [I.P L ]+ b e n [I.IN E ]

lehető[S_M N]+ség[D=FN_PR0P]+ek[I_PL]+ben[I_IHE]

l e h e t [S_IGE]+ő[D=MN_HIF]+ség[D=FN_PR0P]+ek[I_PL]+ben [I_IN E]

l e s z [S_IGE] = le + h e tő [D=MM_HAT0] + ség [D=FN_PR0P] +ek [I_PL] +ben [I_IN E]

F N = főnév M IF = m elléknévi igenév S _ = tő M N = m elléknév P R O P = MN—>FN képző I _ = rag IN E = inesszívusz Н А ТО = m odális képző D _ = képző P L = tö b b es szám

1 . á b ra . A m orfológiai elem ző kim enete.

A m orfém ákat ’+ ’ je l v álasztja el, reprezentációjuk a lexikai alakkal kezdődik, m elyet a kategória követ. H a a felszíni alak különbözik a lexikaitól, az előbbi ’= ’ 1 É rdem es m egjegyezni azonban, hogy az u tó b b i időben a kom plex m orfológiájú nyel

vekre fejlesztett a n n o tá lt nyelvi erőforrások m egjelenése m ia tt egyre tö b b figyelem j u t erre a te rü le tre is (vö. a X erox eszközöket [4], illetve egy független im p le m e n tá c ió ért lásd pl. [5]).

(3)

je l u tá n szerepel, egyébként nincs m egadva. A kategóriacím két a m orfém a m or

fológiai k a te g ó riá já t m eghatározó prefixum előzi m eg. K épzők esetén a k ép zett szó szó faját is m eg ad ja az elem zés.

N yelvfeldolgozó felad ato k b an az elemző á lta l sz o lg á lta to tt nagyon részletes elem zésre álta lá b a n nincs szükség. E zért egy szótövesítő e ljá rá st kell alkalm azni, am ely az a d o tt szóalak tö v ét és infiexiós toldalékait azo n o sítja, oly m ódon, hogy az ö ssze te tt szavak ta g ja i és a derivációs toldalékok a tő részeként szerepelnek és nem jelennek m eg független elem ként az elem zésben. Az 1. áb rá b a n ta lá l

h a tó elem zéseket a lem m atizáló egy elem zéssé vonja össze, ahogy a z t a 2. á b ra m u ta tja .

l e m m a t i s e r >lehetSségekben lehet ő s é g [FN] [PL] [INÉ]

2 . á b r a . A lem m atizáló kim enete.

3. A szim bolik us ism eretlenszó-elem ző

Sem m ilyen ro b u sztu s és széles lefedettséget biztosító nyelvfeldolgozó eszközlánc nem tu d hatékonyan m űködni olyan eljárás h aszn álata nélk ü l, am ely a rendszer tu d ásb ázisa á lta l nem ism ert nyelvi jeleket képes kezelni. T ip ik u s szto ch aszti

kus szóalakszintű an n o táló eszközök, pl. egyértelm űsítők, jellem zően valam ilyen b e é p íte tt toldalékelem ző sta tisz tik a i m odellt alkalm aznak. M agyar nyelvre azon

b an ezek a m odellek a m agas toldalékvariancia m ia tt nem ad n ak jó eredm ényt [8] . E zé rt a jelen ism eretlenszó-elem ző rendszer egy p arciális szim bolikus elem zőn alap u l, am ely a lehetséges lem m a plusz toldalék szekvenciákról a sta tisz tik a i m odelleknél intelligensebb hipotéziseket képes generálni.

M ás m egközelítésektől eltérő en a szim bolikus ism eretlenszó-elem ző á lta l fel

h asz n ált a d a t nem nagyszám ú szóalak elemzése feletti á lta lá n o sítá s eredm énye [9] . M agyar nyelvben ugyanis a n y ílt szóosztályok ta g ja in a k lehetséges to ld alé

k o lt alak jai tú lság o san nagyszám úak ahhoz, hogy kezelhetőek legyenek ilyen ál

talá n o sítá s m egtételéhez. E h ely ett az ism eretlenszó-elem ző a d a tb á z isa a norm ál m orfológiai elem ző építésénél h aszn ált nyelvtani leírásn ak a n y ű t szóosztályok m inden lehetséges tővégződésére való alkalm azásával k észült.

Az ism eretlenszó-elem ző a n y ílt szóosztályok (főnév, ige, m elléknév) m inden infiexiós to ld alék so ro zatát azonosítani tu d ja , és néhány nagyon p ro d u k tív deri

vációs to ld alék is elem ezhető. Az ism eretlen szóalakok jelen tő s része idegen szó, m elyek nem követik a m agyar kiejtés szerinti helyesírást, ez ért bizonyos, az ere

d e ti m orfológiai elem zőben m eglévő m egszorításokat az ism eretlenszó-elem zőben k i k ellett ik ta tn i, illetv e gyengíteni k ellett (pl. m agánhangzó-harm ónia). A zon fonológiai és o rto g ráfiái m egszorítások, m elyeknek ezen rendhagyó helyesírású

(4)

alakok is engedelm eskednek, részei m a ra d ta k az ism eretlenszó-elem ző ad a tb á zi

sán ak , és elem zéskor ellenőrződnek is. ,

A z elem ző á lta l m egengedett igei alakok fo rm ája erősen k o rláto z o tt. M ivel a m agyar igetövek osztálya z á rt, m inden új tő n ek egyértelm űen azo n o síth ató végződése van, am ely valam ilyen p ro d u k tív igeképzőt ta rta lm a z . Az elem ző csak ab b a n az esetb en javasol igei elem zést, h a ilyen végződés kapcsolódik a (hipo

te tik u s) tőhöz. E z a lépés jelentősen csökkenti a lehetséges elem zések szám át, d e egyben feltételezi, hogy a m orfológiai elem ző ism erni a z á rt tő o sztály összes elem ét.

M inthogy alapvetően ugyanazok az inflexiós toldalékok követhetik a főnévi és m elléknévi (valam int szám névi) töveket, ezek csupán m orfofonológiai alap o n tö r

tén ő m egkülönböztetése gyakorlatilag leh etetlen . E zért az ism eretlenszó-elem ző ad a tb á zisáb a n nem te ttü n k különbséget főnévi és m elléknévi tövek k ö zö tt. A szám nevek z á rt o sztály t alkotnak, így a szám névi szufixum ok sem k erü ltek be az ad a tb á zisb a. A zokban a (ritk a) esetekben, ahol egyértelm űen azo n o síth ató a m elléknévi toldalék, az elem ző term észetesen felism eri a helyes tő k ateg ó riá t, egyébként m inden főnévi tövet aján ló elem zés egyben m elléknévi tö v et ta rta l

m azó elem zésként is tek in th ető . A főnévi k ateg ó ria később felü lírh ató , h a a szól

al ak m elléknévnek bizonyul. Az ism eretlenszó-elem zőnek a lem m atizáló form á

tu m a szerin ti kim enetét a 3. á b ra illu sz trálja.

guess e r > T o r g y á n TorgyánCFN] [NOM]

Torgyá[FN] [SOP]

Torgya[FN] [SUP]

TorgyCFN] [PSe3] [SUP]

3 . á b r a . A szim bolikus ism eretlenszó-elem ző kim enete.

4 . A z adatok

A z ism eretlenszó-elem ző eszközlánc átfogó teszteléséhez, illetve a tő - és szufixum - eloszlások sta tisz tik a i m odelljeinek felépítéséhez a M agyar N em zeti Szövegtár [10] teljes 150 m illió szavas anyaga szolgált nyelvi erőforrásul. A szöveg m inim ális előfeldolgozáson, tokenizáláson e se tt á t, a speciális tokenosztályok külön kezelése nélkül. E z t az „először nézzük, m ilyen m orfológiai inform ációt hordoz egy token”

m egközelítést a m agyarban az indokolja, hogy a legkülönfélébb típ u sú tokenek, m in t p éld áu l rövidítések, tulajdonnevek, cím ek, tisztségek m ind toldalékolhatók, ez ért a speciálisan ezek kezelésére k ifejlesztett nyelvfeldolgozó m oduloknak is hozzá kell férn iü k a m orfológiai inform ációhoz.

A korpusz anyaga gyakorisági lis ta alak jáb an szolgált a m orfológiai elem ző (lem m atizáló) (M E) bem enetéül. Az 1. tá b lá z a t tarta lm a z z a a m orfológiai elem zés főbb a d a ta it. Az ism eretlen alakokat ezu tán az ism eretlenszó-elem ző d olgozta

(5)

1 . tá b lá z a t. A m orfológiai elem zés összefoglaló a d a ta i.

Egységek M E á lta l elem zett Ism eretien Ö sszesen Szóalak típ u s 2.222.280 (69.06%) 995.396 (30.94%) 3.217.676 Szóalak token 125.319.357 (95.50%) 5.907.372 (4.50%) 131.226.729

fel, am ely m inden egyes az М Б á lta l elem zetlenül h ag y o tt alakhoz hozzárendelte a lehetséges elem zésük lis tá já t. Az ism eretlenszó-elem ző összesen 2.360.845 elem zést a d o tt m eg a 995.396 szóalakhoz, am i 2,37 elem zés/token á tla g n a k felel m eg.

E z az érték jelentősen m agasabb, m in t az M E hasonló érték e (ah o l 3.065.988 elem zés ta rto z o tt 2.222.280 szóalakhoz, 1,38 elem zés/token á tlag g a l). A különb

ségnek alapvetően k ét oka van: egyrészt néhány az M E-ben jelenlévő m egszorítás az ism eretlenszó-elem zőből ki le tt ik ta tv a az idegen szavak elem zésének elősegí

té se m ia tt, m ásrészt a lem m atizáló gyakran összevon elem zéseket, m elyeket az ism eretlenszó-elem ző nem . Az u tó b b i ugyanis m egpróbál m inél tö b b derivációs to ld alék o t és ezen keresztül m inél tö b b tö v et azonosítani, hogy az elem zések ran g so ro lását és értékelését végző sta tisz tik a i m ódszerekhez k im erítő a lap a d ato k a t szolgáltathasson. É rdem es m egjegyezni, hogy am ennyiben a lehetséges igei elem zések nem lennének ilyen m értékben korlátozva, illetve a m elléknévi elem zés is alap esetb en bekerülhetne a lehetséges elem zések közé, a fen ti 2,37-es á tla g m egközelítené az 5-öt.

5. A z elem ző teszte lé se és k iérték elése

A szim bolikus ism eretlenszó-elem ző á lta l g en e rált h ip o tézisteret term észetesen érdem es szűkíteni a valószínűtlen elem zések kizárásával illetve alacsonyra rangso

rolásával. Ezzel kapcsolatban releváns inform áció nyerhető p éld áu l a korpuszban ta lá lh a tó toldalékszekvencák eloszlásából, m elynek alap ján többféle tesztm o d eü t is leh et vizsgálni.

5.1. Tesztmodellek

A z 2a.-val je lö lt m odellben a p referált elem zés k iválasztása az ism eretlenszó- elem ző á lta l jav aso lt tőnek a korpuszban m ért előfordulási gyakorisága ala p já n tö rté n t. T eh át az az elem zés szá m íto tt a helyesnek, ahol az elem zéshez ren d elt szó tő a legtöbbször fordult elő m int független szóalak a korpuszban. A gyako

riság i a d a to k a szóalakok k isb e tű síte tt fo rm ája alap ján le tte k kiszám ítva. A 4.

áb rá b a n lá th a tó az ism eretlenszó-elem ző kim enete, ahol az elem zések a tő gyár korisága szerin t vannak súlyozva.

A z 1b. m odell az előző kissé m ó d o síto tt v álto zata, am ennyiben egy szűrő ebben a m odellben k izárt bizonyos elem zéseket, m ielőtt azok az la .-b a n hasz

n á lt m érték (egyszerű tőgyakoriság) szerin t rendezve lennének. A szűrő az alábbi

1.

(6)

19957 Torgyán Torgyá n [ F N ] [NOM] (19957) Torgy [FN] [PSe3] [SUP] (0)

TorgyáCFN][SUP] (0) '

TorgyaCFN] [SUP] (0) 1635 mindenképp minden [FN] L K E P P ] (175547)

minde n k é p p [ F N ] [NOM] (1635) . 598 Monde Mond[FN] [PSe3] [NOM] (6792)

Monde [FN] [NOM] (598)

4 . á b r a . Az ism eretlenszó-elem ző kim enete az la . m odellben.

m ódon m űködik: am ennyiben az М Б az a já n lo tt elem zéshez ta rto z ó tö v et egyéb

k én t tu d ta elem ezni, de ezen elem zések k ö zö tt nincs olyan k ateg ó riájú , a m it az ism eretlenszó-elem ző tu la jd o n íto tt a jav aso lt tő n ek (pl. a tő n ek az М Б szerin t ige a kategóriája, viszont a jav aso lt elem zés főnévi k ateg ó riát ad n a ), akkor a kérdéses elem zést a szűrő kizárja. Az 5. á b ra m u ta tja az ism eretlenszó-elem ző sz ű rt és rangsorolt kim enetét. A mond alak igei tő az М Б szerin t, ezért a főnévi' jav aso lt elem zést a szűrő k izárta.

19957 Torgyán T o r g y á n [ F N ] [NOM] (19957) Torgy [FN] [PSe3] [SUP] (0) Torgyá[FN][SUP] (0) Torgya[FN][SUP] (0)

1635 mindenképp minden [FN] L K E P P ] (175547) minden k é p p [ F N ] [NOM] (1635) 598 Monde Monde [FN] [NOM] (598)

5 . á b r a . Az ism eretlenszó-elem ző kim enete az lb . m odellben.

A 2. m odell szintén figyelem be veszi az M E á lta l sz o lg á lta to tt elem zéseket, de az Ib .-b en alkalm azott szűrőn tú l a kom patibilis elem zések tő k a te g ó riá ja az M E á lta l jav aso ltra író d o tt felül. A rangsorolás alap já u l ebben a m odellben nem az egyszerű tő alak gyakorisága szolgált, hanem a jav aso lt tő gyakorisága az M E á lta li elem zésekben. Azoknál a töveim éi, am elyeket az M E nem elem zett, az előző m odellekhez hasonlóan a szóalakgyakoriság m a ra d t a m u tató . A feltételezés a 2. m odell m ögött az, hogy az M E szám ára ism eretlen szóalakok sokszor nem a z é rt m aradnak elemzettemül, m ert tö v ü k hiányzik az M E ad atb ázisáb ó l, hanem vagy paradigm ahiba van az M E-ben, vagy pedig az a d o tt alak o rto g rá fiá ja a tő-szufixum h atáro n nem követi a szokásos e ljá rá st (pl. kötőjel szerepel olyan helyen, ahol egyébként nem szokás, vagy fo rd ítv a.). A 6. áb ra illu sz trá lja a 2.

m odell kim enetét. A mond szótő ki van szűrve, és a m inden tő gyakorisága m egváltozott az előző m odellekhez képest.

(7)

19957 T o r g y á n T o r g y á n [FN] [NOM] (19957) TorgyíFN] [PSe3] [SUP] (0) TorgyáfFN] [SUP] (0) ' T o r g y a [FN] [SUP] (0)

1635 m i n d e n k é p p m i n d e n [ F N 1NM][_KEPP] (216310) m i n d e n k é p p [ F N ] [NOM] (1635) 598 M o n d e M o n d e [FN] [NOM] (598)

6 . á b r a . A z ism eretlenszó-elem ző kim enete a 2. m odellben.

A 3. m odell olyan hasonlósági m érték et haszn ál fel, am ely az ism eretlenszó- elem ző á lta l jav aso lt tövek hasonlóságát p ró b á lja m egragadni az a d o tt kategória jellem ző töveihez (vagyis a főnéviség, igeiség stb. m érté k ét). E nnek érdekében .kiszám oltuk az M E á lta l elem zett összes szóalak tövéhez kapcsolódó toldalékok eloszlását, és ezen eloszlásokat tő k ateg ó rián k én t tá ro ltu k . M egszám oltuk azon elem zéseket, m elyek egy a d o tt tőkategóriával kezdődtek, és ezeket az értékeket elo szto ttu k az a d o tt k ateg ó ria összes előfordulásával. íg y m inden kategóriára (C ) k ap tu n k egy n o rm aü zált eloszlást (H (C ')). U gyanezt az e ljá rá st ism ételtük m eg az ism eretlenszó-elem ző elem zéseire is, m ajd a jav a so lt tövek kategóriájá

n ak eloszlását (H (S c)) összeh aso n líto ttu k a k om patibilis tövek teljes eloszlásá

val (Я (С ')), és kiszám o ltu k a k ét eloszlás ab szo lú t különbségét (A D (C \S c ))·

Ez a különbség egy 0 és 2 k ö zö tti szám (A D (C , S e ) 6 [0,2]); 0, h a a k ét el

oszlás azonos és 2, h a eg y általán nincs közös to ld alék so ro zat. A hipotetikus tő + k a te g ó ria elem hez re n d elt, a C ered eti tövekhez való hasonlóságot kife

jező m érték p ed ig a következő2: S M (C ',S c ) = 2~A-D^ -'Sc^. E zu tán egy C k ateg ó riájú tö v et ta rta lm a z ó elem zéshez re n d elt m érőszám (О М ) a C kategó

riá jú tő gyakorisági értékének (F (S c )) és a hasonlósági m értéknek a szorzata:

O M (C \S c ) = S M ( C ,S c )F (S c ).

M int az 5.2. részben lá th a tó , ez a m érőszám nem b izonyult különösebben hatékonynak. E z egyrészt a lem m atizáló és az ism eretlenszó-elem ző m űködése k ö zö tti különbségből ad ó d h a t, ugyanis p l. a lem m atizáló á lta lá b a n nem ad vissza nom inatívuszi főnév elem zést, h a a kérdéses szóalak derivációs to ld alék ra végző

dik, m íg az ism eretlenszó-elem ző igen, ez ért pl. a nom inatívuszi főnevek eloszlása jelentékenyen különbözik, ez pedig a m elléknévi tő v álasz tá st preferálja, am i sok hibához vezet. M ásrészt azonban további v izsg álat szükséges an n ak érdekében, hogy m ilyen egyéb okok já tsz h a tn a k szerep et, illetőleg m ilyen m ás hasonlósági értékkel lenne érdem es szám olni. A 3. m odell k im en etét a 7. á b ra m u ta tja .

5.2. Kiértékelés .

M iután legjobb szándékunk ellenére sem ta lá ltu n k á ltalán o sa n elfogadott eljárást ism eretlenszó-elem zők teljesítm ényének kiértékelésére, az aláb b i forgatókönyvet v álaszto ttu k . Az ism eretlen szóalakok gyakorisági listá já b a n m egállap íto ttu n k

2 Lényegében ez az eljárás a két eloszlás különbségét az ún. L \ normával méri.

(8)

19957 T o r g y á n T o r gyán [FN] [NOM] (10100) Torgyá[FN] [SUP] (462)

TorgyatFN] [SUP] (462) ' TorgyfFN] [PSe3] [SUP] (218) 1635 minden k é p p m i n d e n k é p p [ F N ] [NOM] (679)

minden[FN] [_KEPP] (6) 5 9 8 M o n d e Monde [FN] [NOM] (338)

M o n d [FN] [PSe3] [NOM] (58)

7 . á b r a . Az ism eretlenszó-elem ző kim enete a 3. m odellben.

egy (önkényes) küszöbértéket (10), am ely előfordulás a la tt nem v e ttü k figye

lem be az a d o tt tó k én t, kizárandó a nagy szám ú olyan „hulladék” alak o t, am ihez legfeljebb az egyéb elem zés lenne rendelhető — ezek igen nagy m éretű korpu

szokban elkerülhetetlenek. A m aradék lis tá t fe lo sz to ttu k 10 egyenlő gyakorisági tarto m án y ra, és m indegyikből véletlenszerűen v á la sz to ttu n k 100 alak o t. A z ered

m ényként k a p o tt 1000 szavas listá n érték eltü k a m odelleket pontosság szem pont

jáb ó l.3

A nnak m érésére, hogy a korpuszból n y e rt sta tisz tik a i a d a to k m ennyiben já r v ítják a szim bolikus ism eretlenszó-elem ző teljesítm én y ét, k ét viszonyító alapm o- d ellt is k iérték eltü n k . A 0a. m odell az egyenlő valószínűségűnek te k in te tt jav aso lt elem zések közül véletlenszerűen v álasz to tt, m íg a 0b. m odell m indig a nom inatí- vuszi főnév elem zést a d ta . A teljesítm ényre vonatkozó értékek a 2. tá b lá z a tb a n találh ató k .

2 . tá b lá z a t. Az elem ző teljesítm énye különböző sta tisz tik a m odellekben.

Modell Teljesítmény

Típus T o k e n korpuszadat nélkül 0a véletlen választás 6 9 . 7 6 % 5 3.39%

0b F N alanyeset 7 8.09% 8 8.72%

korpuszstatisztikával la tőfrekvencia 8 4.18% 9 1.89%

lb szűrt tőfrekvencia 8 4.61% 9 2.73%

2 hibrid frekvencia 8 4 . 6 1 % 9 2.69%

3 eloszlás összehasonlítás 8 4.29% 91.85%

3 E z egy egyszerűsített értékelés, a m e l y b e n a modellek m i n d e n alakhoz egy elemzést választanak, így külön fedés és pontosság értékek itt n e m számolhatók. H a a leírt eljárást szófaji egyértelműsítés kontextusában lexikális valószínűség értékek indukci

ójához használjuk — ez a jelen dolgozat t é m á j á n a k egyik lehetséges továbbfejlesztése

— , akkor a különböző értékek m á r számolhatók.

(9)

M inthogy az alanyesetű főnév nagyon gyakori az ism eretlen szavak k ö zö tt, m ár a 0b. alapm odell is m eglehetősen jó l te lje síte tt. U gyanez a ten d en c ia ki

egészítve azzal, hogy az igék leggyakrabban jelen idő, egyes szám 3. szem ély kijelentő m ódban szerepelnek, eredm ényezi a m inim ális statisztik á v al tám oga

to tt la . m odell jó eredm ényét. A tövekre vonatkozó szűrés tov áb b csökkenti a hibák szám át az lb . m odellben. A 3. m odell viszonylag gyenge teljesítm én y ét az előző részben m ár e m líte ttü k .

Az eredm ényeket szten d erd m etodológia hiányában kissé nehézkes m ás h a

sonló próbálkozások eredm ényével összevetni. A legria e t al. [11] egy szófaji egyér- telm ű sítő rendszer általán o s teljesítm én y ét ad ja m eg, am ely ism eretlenszó-elem zést is használ (93% ), m íg C hanod és T apanainen [12] az itte n ih e z hasonló kiértékelés szerin t 85 %-os p o ntosságot é r el, b á r m eglehetősen szűk elem zési kódkészlettel

(az á ltalu n k h aszn ált készlet tö b b ezer lehetséges kódot ta rta lm a z ).

6. Ö sszefoglalás

Egy olyan ism eretlenszó-elem ző rendszer kifejlesztését m u ta ttu k b e, am ely szim bolikus m egszorításokon alap u ló részleges elem zőt egészít ki nagy korpuszból n y ert olyan statisztik a i inform ációval, m elynek segítségével az első lépésben elő

á llíto tt h ip o tézistér a k ív án t m értékűre szűkíthető. A szim bolikus elem ző és a sta tisz tik a i szűrő eg y ü ttesé t alapvetően k ét felad at e llá tá sá ra lá tju k alkalm as

n ak . A z egyik felad at a folyó szövegben előforduló ism eretlen szóalakok on-line elem zése és egyértelm űsítése, a m ásik a m orfológiai elem ző ad a tb á zisán a k bőví

tése, illetve ja v ítá sa (off-line ad atg y ű jtés).

Az első felad at esetében a konkrét szóalakhoz egyetlen olyan elem zést kell k iválasztani, am ely a szó tö v ét és m órfoszintaktikai jeg y eit (a tő és az infle

xiós toldalékok k ateg ó riáját) leírja. A m ásik felad at m egoldásához olyan töveket kell a korpuszból k iv álasztan i, és a k ateg ó riáju k at m egfelelően azonosítani, illetve esetleges egyéb m eg jó so lh atatlan m orfológiai tu lajd o n ság aik at a korpuszban sze

replő told alék o lt alak jaik segítségével m egállapítani, am elyeket érdem es lenne a m orfológiai elem ző ad a tb á z isá b a felvenni. A rendszer ezen k é t irán y b an tö rté n ő alkalm azása jelenleg folyó k u ta tá s tá rg y á t képezi.

H ivatkozások

1. HajiC, J.: Morphological tagging: D ata vs. Dictionaries. In: Proceedings of ANLP- NAACL Conference, Seattle, W ashington, USA (2000) 94-101

2. Weischedel, R ., M eteer, M., Schwartz, R ., Ramshaw, L., , Palmucci, J.: Coping w ith ambiguity and unknown words through probabilistic models. Com putational

Linguistics 19 (1993) 359-382 .

3. Cucerzan, S., Yarowsky, D.: Language independent m inimally supervised induc

tion of lexical probabilities. In: Proceedings of the 38th Annual M eeting of the Associations for C om putational Linguistics, Hong Kong (2000) 270-277

4. K arttunen, L.: Applications of finite-state transducers in natural language proces

sing. In: Proceedings of CIAA-2000. Lecture Notes in Com puter Science, Springer Verlag (2000)

(10)

5. Alegria, I., Aranzabe, M., Ezeiza, A., Ezeiza, N., U rizar, R.: Using finite state tech

nology in natural language processing of Basque. In: Proceedings of the Conference on Im plem entations and Applications of A utom ata, P retoria (2001) 2-12

6. Prószéky, G., Kis, В.: M orpho-syntactic parsing of agglutinative and other (highly) inflectional languages. In: Proceedings of the 37th Annual M eeting of the Associar tion for Com putational Linguistics, College Park, M aryland, USA (1999) 261-268 ■ 7. H ockett, C.F.: Two models of gramm atical description. Word 10 (1954) 210-234 8. Oravecz, Cs., Dienes, P.: Efficient stochastic p art of speech tagging for Hungarian.

In: Proceedings of the Second International Conference on Language Resources and Evaluation, Las Palmas (2002) 710-717

9. Daciuk, J.: Finite state tools for natural language processing. In: Proceedings of th e COLING 2000 workshop Using Toolsets and A rchitectures to Build NLP Systems, Luxembourg, Luxembourg (2000) 34-37

10. V áradi, T.: The Hungarian N ational Corpus. In: Proceedings of th e Second In

ternational Conference on Language Resources and Evaluation, Las Palm as (2002) 385-389

11. Alegria, I., Aranzabe, M., Ezeiza, A., Ezeiza, N., Urizar, R.: Robustness and custo

m isation in an analyser/Iem m atiser for Basque. In: Proceedings of th e LREC-2002 Workshop on Customizing Knowledge in NLP Applications, Las Palm as (2002) ■ ·.

12. Chanod, J.P ., Tapanainen, P.: Creating a tagset, lexicon and guesser for a French tagger. In Ikoukerm ann, E ., Armstrong, S., szerk.: From Texts to Tags: Issues in M ultilingual Language Analysis: Proceedings of the ACL SIGDAT W orkshop, Geneva (1995) 58-64