• Nem Talált Eredményt

Kivonatol´as

In document Magyar nyelv˝ u irodalom (Pldal 190-193)

8. Id˝ osorok elemz´ ese 162

9.4. Kivonatol´as

Internetes keres´es eset´en szinte mindenki tal´alkozott m´ar azzal a probl´em´aval, hogy a keres˝omotorok ´altal tal´alt honlapok legal´abb egy r´esze nem felel meg a felhaszn´al´o in-form´aci´oig´eny´enek. A felhaszn´al´o r´esz´er˝ol a keres˝oszolg´altat´as ´altal adott r¨ovid c´ım ´es p´ar soros le´ır´as alapj´an annak eld¨ont´ese, hogy egy adott dokumentum relev´ans-e sz´am´ara szint´en nem egyszer˝u feladat. Ehhez olykor a teljes dokumentumot le kell t¨olteni ´es ´at kell futni, azaz id˝oig´enyes munk´at jelent. A keres˝oszolg´altat´asok ´es/vagy a tartalomszolg´altat´ok (hon-lap/dokumentum k´esz´ıt˝oi) r´esz´er˝ol szint´en nem v´arhat´o el, hogy automatiz´al´as n´elk¨ul emberi

´es anyagi er˝oforr´asokat ´all´ıtson a c´el ´erdek´ebe.

Ebben a szakaszban olyan sz¨ovegb´any´aszati m´odszereket vizsg´alunk, amelyek ezt a felada-tot, teh´at a dokumentumok ¨osszegz´es´et automatikusan elv´egzik. Ezeket a m´odszereket ¨ossze-foglal´oan ¨osszegz´esk´esz´ıt˝o elj´ar´asoknak nevezz¨uk.

9.4.1. Az ¨ osszegz´ esk´ esz´ıt˝ o elj´ ar´ asok feloszt´ asa

Ezeket a m´odszereket ¨osszefoglal´oan ¨osszegz´esk´esz´ıt˝o elj´ar´asoknak nevezz¨uk, amelyeket a szakirodalom az ¨osszegz´es el˝o´all´ıt´asa alapj´an k´et alapvet˝oen k¨ul¨onb¨oz˝o csoportba oszt : ki-vonatol´asnak (extraction) h´ıvjuk az olyan elj´ar´ast, amelynek eredm´enye kiz´ar´olag az erede-ti sz¨ovegb˝ol vett r´eszeket tartalmaz, m´ıg ezzel szemben az osszefoglal´¨ as-k´esz´ıt˝o (abstraction) m´odszerek ´altal el˝o´all´ıtott sz¨oveg, olyan elemeket is tartalmaz, ami nem r´esze a feldolgozott dokumentumnak.

23ftp://ftp.cs.cornell.edu/pub/smart

Az emberi gondolkod´as ´es inform´aci´ofeldolgoz´as modellez´ese — ´ıgy az ¨osszegfoglal´as-k´esz´ıt´es´e is — bonyolult feladat. Az ¨osszefoglal´as f¨ugg a k´esz´ıt˝o szem´ely´et˝ol, szaktud´as´at´ol, k¨ul¨onb¨ozhet m´eretben, nyelvezetben, st´ılusban ´es r´eszletezetts´egben. Az ¨osszegfoglal´as-k´esz´ıt´es folyamat´anak matematikai vagy logikai formul´akkal val´o le´ır´asa rendk´ıv¨ul komplex feladat [?].

Az ut´obbi ´evekben a nyelvtechnol´ogiai eszk¨oz¨ok fejl˝od´ese azonban lehet˝os´eget adott olyan rend-szerek megalkot´as´ara amelyek k´epesek sz¨ovegek szemantikai feldolgoz´as´ara is. Ilyen eszk¨oz¨ok seg´ıts´eg´evel, a sz¨ovegben tal´alhat´o fr´azisok ´es lexikai l´ancok meghat´aroz´as´aval, majd azok

¨osszef˝uz´es´evel, lehet˝os´eg van ¨osszegfoglal´asok automatikus gener´al´as´ara. Enn´el l´enyegesebben egyszer˝ubb a kivonatol´o elj´ar´asok m˝uk¨od´ese, ahol az eredeti sz¨ovegben megl´ev˝o, azt legink´abb jellemz˝o sz¨ovegegys´egek (mondatok, bekezd´esek, stb.) kiv´alaszt´asa a c´el.

A kivonatol´o elj´ar´asok h´atr´anya :

– Az ily m´odon kiv´alasztott mondatok jellemz˝oen az ´atlagosn´al hosszabbak (ld. 9.4.3. pont).

Mivel az ilyen mondatoknak egyes r´eszei gyakran nem tartalmaznak l´enyegi inform´aci´ot, az feleslegesen ker¨ul be a kivonatba.

– A dokumentumokban l´ev˝o fontos inform´aci´oegys´egek ´altal´aban az eg´esz dokumentumban elsz´ortan vannak jelen, ´es ezt a kivonatol´o m´odszerek nem k´epesek feldolgozni.

– A sz¨ovegben szerepl˝o ellentmond´o inform´aci´okat a kivonat nem dolgozza fel megfelel˝oen.

Az ¨osszefoglal´o elj´ar´asok h´atr´anya :

– A felhaszn´al´ok jobban kedvelik a kivonatol´assal k´esz¨ult ¨osszegz´est, mint a gener´alt ¨ossze-foglal´okat [?]. Ennek oka, hogy a kivonat a szerz˝o eredeti kifejez´eseit, sz´ohaszn´alat´at tar-talmazza, valamint esetlegesen lehet˝os´eget ny´ujt a sorok k¨oz¨otti inform´aci´ok olvas´as´ara is.

– A mondatszint´ezis ter¨ulete jelenleg m´eg angol nyelvre is gyerekcip˝oben j´ar, ez´ert az au-tomatikusan gener´alt sz¨ovegekben gyakran m´eg mondaton bel¨ul is ellentmond´as, van,

´ıgy az eg´esz sz¨oveg k¨onnyen ¨osszef¨ugg´estelenn´e v´alik. Kivonat eset´en inkoherencia csak a mondatok hat´arain´al fordul el˝o.

Mivel a legt¨obb m˝uk¨od˝o alkalmaz´as a kivonatol´as m´odszer´et alkalmazza, ez´ert a tov´abbiakban erre f´okusz´alunk.

A felhaszn´al´asi c´el alapj´an az ¨osszegz´esk´esz´ıt˝o elj´ar´asokat az al´abbi szempontok szerint lehet rendszerezni [? ].

– R´eszletezetts´eg : indikat´ıv vagy informat´ıv. Az indikat´ıv ¨osszegz´es azt tartalmazza, hogy a sz¨ovegnek mi a t´em´aja, m´ıg az informat´ıv ¨osszegz´es ugyanannak egy speci´alis r´eszlet´et t´argyalja.

– Tartalom : ´altal´anos vagy k´erd´es-vez´erelt. Az ¨osszegz´es lehet egy dokumentum tar-talm´anak ´altal´anos le´ır´asa, vagy kiemelheti a tartalomnak a felhaszn´al´o ´altal megadott k´erd´essel kapcsolatos r´esz´et.

– Megk¨ozel´ıt´es : t´ema, ill. t´ıpus specifikus vagy f¨uggetlen. A tapasztalatok azt mutatj´ak, hogy k¨ul¨onb¨oz˝o t´ıpus´u (pl. r¨ovidh´ır, tudom´anyos publik´aci´o) dokumentumokban a l´enyegi inform´aci´o m´as helyen tal´alhat´o.

9.4.2. A kivonatol´ as hat´ ekonys´ ag´ anak m´ er´ ese

Els˝ok´ent megvizsg´aljuk, hogy milyen m´odszereket ´es m´ert´ekeket alkalmaznak a kivona-tol´as eredm´eny´enek ki´ert´ekel´es´ere, hogy ez´altal k¨onnyebben ´erthet˝o legyen, melyek az egyes m´odszerek el˝onyei ´es h´atr´anyai. Egy ¨osszegz´es meg´ıt´el´ese szem´elyenk´ent v´altoz´o lehet, f¨ ugget-len¨ul att´ol, hogy automatikus vagy ember ´altal k´esz´ıtett anyagr´ol van sz´o.

A kivonatol´o technik´ak ki´ert´ekel´es´ere az 1960-es ´evekben Edmundson ´altal javasolt m´ert´eket [? ] haszn´alj´ak m´eg ma is a leggyakrabban. Az automatikusan gener´alt kivonatokat szak´ert˝ok

´altal mondatkiv´alaszt´assal elk´esz´ıtett kivonatokkal vetik ¨ossze meghat´arozva a megegyez˝o mon-datok sz´am´at. Ezut´an a szok´asos IR m´ert´ekekkel — pontoss´ag, felid´ez´es — jellemzik a kivona-tol´as min˝os´eg´et. Ennek a m´odszernek a h´atr´anya, hogy sz¨uks´eges hozz´a emberi el˝ofeldolgoz´as, ugyanakkor ebben rejlik az er˝oss´ege is, hiszen ha egy m´odszer ezen m´ert´ek alapj´an valamely tanul´oadat-halmazon j´ol teljes´ıt, akkor v´arhat´oan ismeretlen sz¨ovegeken is j´ol m˝uk¨odik, a fel-haszn´al´o sz´am´ara j´ol ´erthet˝o, hasznos kivonatokat gener´al.

A szakirodalom a fentieken k´ıv¨ul m´eg az al´abbi szempontokat tekinti ir´anymutat´onak egy kivonat hasznoss´ag´anak ´es teljess´eg´enek meg´ıt´el´es´eben [? ? ] :

I. Meg tudja-e v´alaszolni a felhaszn´al´o mindazokat a k´erd´eseket a kivonat elolvas´asa ut´an, amelyekre az eg´esz sz¨oveg elolvas´asa eset´en k´epes lenne ?

II. Mi a t¨om¨or´ıt´esi ar´anya a kivonatnak az eredeti sz¨oveghez k´epest ? III. Van-e a kivonatolt sz¨ovegben ism´etl˝od´es, redundancia ?

Ugyanakkor a kivonatok egy´eb jellemz˝oit, pl. intelligencia, koh´ezi´o, ¨osszef¨ugg´es, olvas-hat´os´ag sokkal nehezebb ´ert´ekelni.

A kivonatol´as min˝os´eg´ere vonatkoz´oan megk¨ul¨onb¨oztetnek bels˝o ´es k¨uls˝o m´ert´ekeket [? ], aszerint, hogy csak a kivonat tulajdons´agait veszi-e figyelembe az adott m´ert´ek, vagy a kivo-nat min˝os´eg´et valamely m´as c´el elv´egz´es´eben ny´ujtott t´amogat´as hat´ekonys´ag´anak t¨ukr´eben vizsg´alj´ak. A felsorolt m´ert´ekek k¨oz¨ul a m´asodik az el˝obbi, m´ıg az els˝o az ut´obbi kateg´ori´aba tartozik. Kiz´ar´olag a t¨om¨or´ıt´esi ar´any nem megfelel˝o jellemz˝oje a kivonat min˝os´eg´enek, hiszen pl. a redundanci´at, vagy az inform´aci´o hasznoss´ag´at nem veszi figyelembe.

9.4.3. Mondatkiv´ alaszt´ asn´ al haszn´ alt jellemz˝ ok

A mondatkiv´alaszt´assal m˝uk¨od˝o kivonatol´o technik´ak ´ugy m˝uk¨odnek, hogy a dokumentum minden egyes mondat´ahoz hozz´arendelnek egy heurisztikus m´odon meghat´arozott ´ert´eket, ´es a legmagasabb pontsz´ammal rendelkez˝o mondatokat teszik bele a kivonatba. A mondatokhoz rendelt ´ert´eket az al´abbi t´enyez˝ok n¨ovelik :

– Kulcssz´o-el˝ofordul´as : Azok a mondatok, amelyekben a sz¨oveg leggyakoribb szavai sze-repelnek, ´altal´aban j´ol reprezent´alj´ak a dokumentumot.

– C´ım-kulcssz´o : A c´ımben szerepl˝o szavak ´altal´aban utalnak a dokumentum tartalm´ara is, ez´ert az olyan sz¨ovegk¨ozi mondatok amelyekben c´ımszavak szerepelnek ´altal´aban az

´atlagosn´al jobban jellemeznek egy dokumentumot.

– El˝ofordul´asi hely heurisztika : Ujs´agh´ırek eset´en t¨obbnyire az els˝o mondat, technikai–´ tudom´anyos sz¨ovegekn´el az ¨osszefoglal´as utols´o mondatai, illetve a konkl´uzi´o tartalma j´ol jellemzi az adott dokumentumot.

– Utal´o fr´azisok : Az olyan kulcsszavakat tartalmaz´o mondatok, mint pl.

”ez a cikk”,

”a tanulm´any”,

”jelen munk´ankban” az ´atlagosn´al t¨obb inform´aci´ot hordoznak a sz¨oveg eg´esz´er˝ol.

– Nagybet˝us szavak : R¨ovid´ıt´eseket, vagy tulajdonneveket tartalmaz´o mondatok

´altal´aban nagyobb inform´aci´o tartalommal b´ırnak.

A mondatokhoz rendelt ´ert´eket az al´abbi t´enyez˝ok cs¨okkentik :

– R¨ovid mondatok kisz˝ur´ese : A kivonatban jellemz˝oen nincsenek r¨ovid, n´eh´any szavas mondatok.

– N´evm´asok :Szem´elyes, vonatkoz´o, birtokos, stb. n´evm´asokat tartalmaz´o mondatok csak akkor ker¨ulnek be a kivonatba, ha meghat´arozhat´o, hogy mire utalnak. Ekkor az utalt sz´o ker¨ul a kivonatba ker¨ul˝o mondatban a n´evm´as hely´ere.

– Inform´alis ´es pontatlan szavak : A gyakori ´es sok jelent´essel b´ır´o, vagy pontatlan szavak negat´ıv t´enyez˝ok a mondat kiv´alaszt´asn´al.

– Id´ez´esre utal´o szavak : Angol nyelv˝u h´ırekn´el jellemz˝o id´ez´esre utal´o szavak szint´en negat´ıv faktorok : adding, said, according, stb.

– Redundancia-cs¨okkent´es: Ezt a pontsz´amot olyan elj´ar´asokban alkalmazz´ak, ahol egyenk´ent hat´arozz´ak meg a kivonatba ker¨ul˝o mondatokat. Az ´ert´eket minden ´uj mondat kiv´alaszt´as´an´al ´ujrasz´amolj´ak, megel˝ozend˝o azt, hogy a kiv´alasztott mondat valamelyik m´ar kor´abban a kivonatba ker¨ult mondathoz hasonl´ıtson, pl. ´ugy, hogy ar´anyosan cs¨okken-tik a m´eg nem bev´alasztott mondatok pontsz´am´at aszerint, hogy mennyire hasonl´ıtanak az aktu´alis kivonathoz [? ? ].

Az alkalmazott jellemz˝ok jellege szerint megk¨ul¨onb¨oztethet¨unk nyelvi, statisztikai, ill. in-form´aci´oelm´eleti, ´es v´eg¨ul kombin´alt m´odszereket.

In document Magyar nyelv˝ u irodalom (Pldal 190-193)