Osszegz´ ¨ es - Mondatok, szavak, klinik´ ak

Mondatok, szavak, klinik´ ak

6. Osszegz´ ¨ es

5. t´abl´azat. A tokeniz´al´as feladat´ara vonatkoz´o eredm´enyek Pontoss´ag (P) Fed´es (R) F1

Baseline 99,74% 74,94% 85,58%

A teljes l´anc 98,54% 95,32% 96,90%

186 X. Magyar Számítógépes Nyelvészeti Konferencia 5. Gillick, D.: Sentence boundary detection and the problem with the US. In:

Procee-dings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, Association for Computational Linguistics (2009) 241–244 6. Mikheev, A.: Periods, capitalized words, etc. Computational Linguistics28(3)

(2002) 289–318

7. Mikheev, A.: Tagging sentence boundaries. In: Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference, Association for Computational Linguistics (2000) 264–271

8. Hal´acsy, P., Kornai, A., N´emeth, L., Rung, A., Szakad´at, I., Tr´on, V.: Creating open language resources for Hungarian. In: Proceedings of Language Resources and Evaluation Conference. (2004)

9. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of Recent Advances in Na-tural Language Processing 2013, Hissar, Bulgaria, Association for Computational Linguistics (2013) 763–771

10. Kumar, A.: Monk project: Architecture overview. In: Proceedings of JCDL 2009 Workshop: Integrating Digital Library Content with Computational Tools and Ser-vices. (2009)

11. Sikl´osi, B., Orosz, Gy., Nov´ak, A., Pr´osz´eky, G.: Automatic structuring and correc-tion suggescorrec-tion system for hungarian clinical records. In De Pauw, G., De Schryver, G.M., Forcada, M.L., M Tyers, F., Waiganjo Wagacha, P., eds.: 8th SaLTMiL Workshop on Creation and use of basic lexical resources for lessresourced langua-ges. (2012) 29.–34.

12. Sikl´osi, B., Nov´ak, A., Pr´osz´eky, G.: Context-aware correction of spelling errors in hungarian medical documents. In Dediu, A.H., Mart´ın-Vide, C., Mitkov, R., Tru-the, B., eds.: Statistical Language and Speech Processing. Volume 7978 of Lecture Notes in Computer Science. Springer Berlin Heidelberg (2013) 248–259

13. Orosz, Gy., Nov´ak, A., Pr´osz´eky, G.: Magyar nyelv˝u klinikai rekordok morfol´ogiai egy´ertelm˝us´ıt´ese. In: IX. Magyar Sz´am´ıt´og´epes Nyelv´eszeti Konferencia, Szeged, Szegedi Tudom´anyegyetem (2013) 159–169

14. Xu, H., Stenner, S.P., Doan, S., Johnson, K.B., Waitman, L.R., Denny, J.C.: Me-dex: a medication information extraction system for clinical narratives. Journal of the American Medical Informatics Association17(1) (2010) 19–24

15. Apostolova, E., Channin, D.S., Demner-Fushman, D., Furst, J., Lytinen, S., Raicu, D.: Automatic segmentation of clinical texts. In: Engineering in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conference of the IEEE, IEEE (2009) 5905–5908

16. Cho, P.S., Taira, R.K., Kangarloo, H.: Text boundary detection of medical re-ports. In: Proceedings of the AMIA Symposium, American Medical Informatics Association (2002) 998

17. Savova, G.K., Masanz, J.J., Ogren, P.V., Zheng, J., Sohn, S., Schuler, K.K., Chute, C.G.: Mayo clinical text analysis and knowledge extraction system (ctakes): archi-tecture, component evaluation and applications. Journal of the American Medical Informatics Association17(5) (2010) 507–513

18. Taira, R.K., Soderland, S.G., Jakobovits, R.M.: Automatic structuring of radiology free-text reports. Radiographics21(1) (2001) 237–245

19. Tomanek, K., Wermter, J., Hahn, U.: Sentence and token splitting based on con-ditional random ﬁelds. In: Proceedings of the 10th Conference of the Paciﬁc Asso-ciation for Computational Linguistics. (2007) 49–57

20. Tomanek, K., Wermter, J., Hahn, U.: A reappraisal of sentence and token splitting for life sciences documents. Studies in Health Technology and Informatics129(Pt 1) (2006) 524–528

21. Csendes, D., Csirik, J., Gyim´othy, T.: The Szeged Corpus: A POS tagged and syntactically annotated Hungarian natural language corpus. In: Proceedings of the 5th International Workshop on Linguistically Interpreted Corpora. (2004) 19–

22. Kiss, T., Strunk, J.: Unsupervised multilingual sentence boundary detection.

Computational Linguistics32(4) (2006) 485–525

188 X. Magyar Számítógépes Nyelvészeti Konferencia

A magyar beteg

Siklósi Borbála¹, Novák Attila^1,2

1 Pázmány Péter Katolikus Egyetem, Információs Technológiai és Bionikai Kar

2 MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport 1083 Budapest, Práter utca 50/a

e-mail:{siklosi.borbala, novak.attila}@itk.ppke.hu

Kivonat A klinikai szövegek feldolgozása aktív kutatási terület, mely-nek során az egyik legnagyobb kihívás az ilyen szövegek azon sajátos-ságainak a kezelése, amelyek tekintetében ezek az általános szövegektől jelentősen eltérnek. Ezek között szerepel többek között a sok szakszó és rövidítés, a szinte csak rövidítésekből és numerikus adatokból álló

„mondatok”, valamint a jelentős számú helyesírási és központozási hiba, amelyből többek között a mondathatárok felismerésének rendkívül nehéz volta is következik.

Cikkünkben bemutatjuk a rendelkezésünkre álló magyar klinikai korpusz jellemzőit, különös tekintettel az előbb említett tényezőkre, összevetve azt egy általános tartalmú magyar szövegeket tartalmazó korpusszal.

A szövegek felszíni tulajdonságai mellett összehasonlításokat végeztünk a leggyakoribb szavak disztribúciós szemantikai viselkedése alapján is, melynek során a jelentésbeli különbségek is kimutathatóak a különböző korpuszok között.

1. Bevezetés

A klinikai dokumentumok olyan szövegek, melyek kórházi körülmények között, mindennapi eseteket dokumentálva a kezelések során jönnek létre. Minőségük tehát nem összehasonlítható az elsősorban angol nyelven szintén aktívan vizs-gált orvosi-biológiai szakirodalom nyelvezetével, amelyek többszörös ellenőrzésen keresztülmenve, szigorú nyelvi szabályok betartása mellett keletkeznek [1,2]. A klinikai orvosi szövegek ezzel szemben sietve, minden nyelvi segédeszköz, vagy emberi ellenőrzés nélkül, általában strukturálatlan formában jönnek létre. Jel-lemző továbbá, hogy keletkezésük során ezeknek a dokumentumoknak a címzettje általában az azt leíró orvos maga, tehát az eredeti célját nem befolyásolja a sa-játos nyelvezet, egyedi rövidítések, utalások használata. Ezek a dokumentumok azonban nagyon sok olyan információt és tudást tartalmaznak, amelyeket ezen az elsődleges célon túl, az orvostudomány több területén alkalmazni lehetne. Ehhez arra lenne szükség, hogy a szövegekben leírt tényállásokat olyan formára hozzuk, amely lehetővé teszi ezeknek az információknak a hatékony kinyerését.

Több kísérlet született már a természetes nyelvű szövegek feldolgozásához ál-talánosan használt eszközök orvosi szövegeken való alkalmazására, azonban ezek teljesítménye általában messze elmarad attól a szinttől, amit általános szöve-geken elérnek. Ahhoz, hogy a már bevált módszerek, vagy azoknak egy része

adaptálható legyen az orvosi szövegekre, ismernünk kell ez utóbbinak a jellem-zőit, illetve az általános szövegektől való főbb eltéréseket.

Ehhez több vizsgálatot végeztünk. A korpusz alapján először a felszíni alakok statisztikai eloszlását, majd ugyanezek egy feldolgozási lépéssel későbbi szintű (szótő, szófaj, névelemek, rövidítések) előfordulását vizsgáltuk, összehasonlítva a kapott mintákat az általános korpuszból kinyert adatokkal. Általános szöveg-ként a Szeged Korpuszt használtuk. Jól elkülöníthetővé váltak a két szövegtí-pusban jellemzően előforduló nyelvi szerkezetek. Az eredmények elemzése során kimutathatóak azok a szerkezeti bizonytalanságok, amelyek miatt a klinikai szö-vegek jóval nehezebben értelmezhetőek az általános szöszö-vegeknél. Ilyen jellemzők nemcsak a rengeteg szakkifejezés jelenléte, hanem a szövegek gyakran rendkívül pongyola megformálása és az azonos fogalmak jelölésére konkrétan használt írott alakok rendkívüli változatossága is.

Természetesen a lexikai alakok vizsgálata során azok összehasonlítása nem vizsgálható érdemben, hiszen a szakkifejezések előfordulási aránya nyilvánvalóan nagyobb a szakszövegekben. A klinikai dokumentumokra azonban jellemző, hogy az esetleírásoknál, különösen a panaszok felvétele során egészen hétköznapi tör-ténetek leírása is szerepel. Ennek a kevert orvosi nyelvnek a statisztikai jellemzői is felismerhetők a korpusz önmagában való vizsgálata során.

Tanulmányunk célja a részletes statisztikai vizsgálatok alapján azon jelen-ségek bemutatása, amik igazolják az orvosi-klinikai szövegek feldolgozásának nehézségeit, illetve irányadók lehetnek a különböző eszközök fejlesztése során, melyek paraméterei így a speciﬁkus problémákhoz hangolhatóak.

In document MSZNY 2014 (Pldal 195-199)