• Nem Talált Eredményt

Összefoglalás

In document MSZNY 2013 (Pldal 164-168)

Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével

6 Összefoglalás

iteratív újraépítésétől, ami a jelenleg igen zajos nyelvmodell helyességén javítana, így annak torzító hatását kiküszöbölné.

Köszönetnyilvánítás

Ez a munka részben a TÁMOP 4.2.1.B – 11/2/KMR-2011–0002 pályázat támogatá-sával készült.

Hivatkozások

1. Dustin, B.: Language Models for Spelling Correction CSE 256 (2004)

2. Brill, E., Moore, R.C.: An improved error model for noisy channel spelling correction. In:

Proceedings of the 38th Annual Meeting on Association for Computational Linguistics (2000) 286–293

3. Contractor, D., Faruquie, T.A., Subramaniam, L.V.: Unsupervised cleansing of noisy text.

In: Proceedings of the 23rd International Conference on Computational Linguistics (2010) 189–196

4. Heinze, D.T., Morsch, M.L., Holbrook, J.: Mining Free-Text Medical Records. A-Life Medical, Incorporated (2001) 254–258

5. Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A., Herbst, E.: Moses: Open Source Toolkit for Statistical Machine Translation In: Proceedings of the 45th Annual Mee-ting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. Association for Computational Linguistics, Prague, Czech Republic (2007) 177–180

6. Mykowiecka, A., Marciniak, M.: Domain-driven automatic spelling correction for mammography reports. In: Intelligent Information Processing and Web Mining Proceedings of the International IIS: IIPWM’06. Advances in Soft Computing, Heidelberg (2006) 7. Ehsan, N., Faili, H.: Grammatical and Context-sensitive Error Correction Using a Statistical

Machine Translation Framework. In: Software Practice and Experience (2011)

8. Novák A.: Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem (2003) 138–145

9. Orosz, Gy., Novák, A.: PurePos — an open source morphological disambiguator. In:

Proceedings of the 9th International Workshop on Natural Language Processing and Cognitive Science (2012) 53–63

10. Patrick, J., Sabbagh, M., Jain, S., Zheng, H.: Spelling Correction in Clinical Notes with Emphasis on First Suggestion Accuracy. In: 2nd Workshop on Building and Evaluating Resources for Biomedical Text Mining (2010) 2–8

11. Pirinen, T.A., Lindén, K.: Finite-State Spell-Checking with Weighted Language and Error Models – Building and Evaluating Spell-Checkers with Wikipedia as Corpus. In: SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC (2010) 13–18

12. Prószéky, G., Novák, A.: Computational Morphologies for Small Uralic Languages. In:

Inquiries into Words, Constraints and Contexts (2005) 150–157

13. Siklósi, B., Orosz, Gy., Novák A., Prószéky G.: Automatic structuring and correction suggestion system for Hungarian clinical records. In: Proceedings of the 8th SaLTMiL Workshop on Creation and use of basic lexical resources for less-resourced languages (2012) 29–34

14. Stevenson, M., Guo, Y., Amri, A., Gaizauskas, R.: Disambiguation of biomedical abbreviations. In: Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing (2009) 71

Magyar nyelv˝ u klinikai rekordok morfol´ ogiai egy´ ertelm˝ us´ıt´ ese

Orosz Gy¨orgy, Nov´ak Attila, Pr´osz´eky G´abor MTA-PPKE Magyar Nyelvtechnol´ogiai kutat´ocsoport P´azm´any P´eter Katolikus Egyetem, Inform´aci´os Technol´ogiai Kar

1083, Budapest, Pr´ater utca 50/a

e-mail:{oroszgy, novak.attila, proszeky}@itk.ppke.hu

Kivonat Cikk¨unkben azokat az elj´ar´asokat mutatjuk be, amelyekkel a megl´ev˝o PurePos sz´oalaktani egy´ertelm˝us´ıt˝o rendszert, valamint az abban alkalmazott HuMor morfol´ogiai elemz˝ot egy klinikai dokumen-tumokb´ol ´all´o orvosi korpusz elemz´es´ere adapt´altunk. Ismertetj¨uk a rendszer fejleszt´es´ehez sz¨uks´eges teszthalmaz l´etrehoz´as´anak l´ep´eseit, a fejleszt´es alatt ´all´o egy´ertelm˝us´ıt˝o ´ep´ıt˝oelemeit, ´es az azokon v´egzett els˝o dom´enadapt´aci´os elj´ar´asokat. R´eszletesen le´ırjuk a felhaszn´alt mor-fol´ogiai elemz˝o t˝ot´ar´anak b˝ov´ıt´esi l´ep´eseit, az egy´ertelm˝us´ıt˝oben a mor-fol´ogiafejleszt´es egyes megold´asai mell´ekhat´asak´ent fell´ep˝o hib´akat ´es az azokra adott megold´asokat. V´egezet¨ul megmutatjuk, hogy az ´ıgy ka-pott eszk¨ozzel relat´ıv 41,86%-kal siker¨ult cs¨okkenteni a c´ımk´ez˝o ´altal v´etett hib´ak sz´am´at, megvizsg´aljuk a fennmarad´o hib´akat, s javaslatokat tesz¨unk azok jav´ıt´as´ara.

1. Bevezet´ es

A legt¨obb k´orh´azban az orvosi feljegyz´esek t´arol´asa csup´an archiv´al´as ´es az egyes esetek dokument´al´asa c´elj´ab´ol t¨ort´enik. Ezen adatok felhaszn´al´asi lehet˝os´ege ´ıgy csup´an az egyes k´ort¨ort´enetek manu´alis visszakeres´es´ere korl´atoz´odik. Kor´abban bemutattunk [1,2] egy olyan automatikus elj´ar´ast, amely az orvosi (azon bel¨ul is a szem´eszeti) rekordok helytelen szavait nagy sz´azal´ekban jav´ıtani tudja. Ezen el˝ofeldolgoz´asi l´ep´es ut´an a m´elyebb szemantikai ¨osszef¨ugg´esek automatikus ki-nyer´es´ehez sz¨uks´eges a dokumentumok mondatainak (morfo-)szintaktikai an-not´al´asa is.

A sz´ofaji ´es ezzel egy¨utt a morfol´ogiai egy´ertelm˝us´ıt´es a nyelvtechnol´ogia egyik alapfeladata, mely a hagyom´anyos sz¨ovegfeldolgoz´asi l´anc elej´en ´all.

Eredm´eny´enek haszn´alat´ahoz – az eg´eszs´eg¨ugy eset´en pedig m´eg ink´abb – an-nak nagy fok´u pontoss´aga sz¨uks´eges. Angol nyelvter¨uleten sz´amos alkalommal vizsg´alt´ak m´ar statisztikai tanul´o algoritmusok orvosi dom´enre val´o adapt´al´as´at, m´ıg a magyar nyelv˝u klinikai dokumentumok ilyen t´ıpus´u feldolgoz´as´ara nem ismer¨unk hasonl´o eredm´enyeket.

Kutat´asunkhoz sz¨uks´eg volt egy manu´alisan annot´alt kis m´eret˝u korpusz l´etrehoz´as´ara – imm´ar nem csak szem´eszeti t´ıpus´u klinikai dokumentumo-kat feldolgozva – melyet a bemutatott egy´ertelm˝us´ıt˝o m´odszerek finomhan-gol´as´ara, tesztel´es´ere ´es m´er´esre haszn´altunk. Az ellen˝orz¨ott ´es jav´ıtott mor-fol´ogiailag c´ımk´ezett sz¨oveg elk´esz´ıt´es´ehez a rekordokat automatikusan f˝obb al-kot´or´eszekre bontottuk, melyekb˝ol a kinyert sz¨oveges bekezd´esekhez adapt´altuk a k¨ozpontoz´asi hib´akat jav´ıt´o ´es tokeniz´al´o rendszert, a morfol´ogiai elemz˝ot ´es az egy´ertelm˝us´ıt˝o rendszert.

´Ir´asunkban a fenti l´ep´eseken t´ul ismertetj¨uk a HuMor morfol´ogiai elem-z˝o [3,4] adapt´al´asa sor´an alkalmazott eszk¨oz¨oket, elj´ar´asokat. Bemutatjuk az egy´ertelm˝us´ıt˝o rendszer orvosi dom´enre t¨ort´en˝o alkalmaz´asa sor´an felmer¨ult ti-pikus hibaeseteket ´es az erre adott megold´asokat. V´egezet¨ul ´attekintj¨uk az ´ıgy kapott rendszer ´es r´eszeinek eredm´enyess´eg´et.

In document MSZNY 2013 (Pldal 164-168)