Mondatok, szavak, klinik´ ak
6. Osszegz´ ¨ es
5. t´abl´azat. A tokeniz´al´as feladat´ara vonatkoz´o eredm´enyek Pontoss´ag (P) Fed´es (R) F1
Baseline 99,74% 74,94% 85,58%
A teljes l´anc 98,54% 95,32% 96,90%
186 X. Magyar Számítógépes Nyelvészeti Konferencia 5. Gillick, D.: Sentence boundary detection and the problem with the US. In:
Procee-dings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, Association for Computational Linguistics (2009) 241–244 6. Mikheev, A.: Periods, capitalized words, etc. Computational Linguistics28(3)
(2002) 289–318
7. Mikheev, A.: Tagging sentence boundaries. In: Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference, Association for Computational Linguistics (2000) 264–271
8. Hal´acsy, P., Kornai, A., N´emeth, L., Rung, A., Szakad´at, I., Tr´on, V.: Creating open language resources for Hungarian. In: Proceedings of Language Resources and Evaluation Conference. (2004)
9. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of Recent Advances in Na-tural Language Processing 2013, Hissar, Bulgaria, Association for Computational Linguistics (2013) 763–771
10. Kumar, A.: Monk project: Architecture overview. In: Proceedings of JCDL 2009 Workshop: Integrating Digital Library Content with Computational Tools and Ser-vices. (2009)
11. Sikl´osi, B., Orosz, Gy., Nov´ak, A., Pr´osz´eky, G.: Automatic structuring and correc-tion suggescorrec-tion system for hungarian clinical records. In De Pauw, G., De Schryver, G.M., Forcada, M.L., M Tyers, F., Waiganjo Wagacha, P., eds.: 8th SaLTMiL Workshop on Creation and use of basic lexical resources for lessresourced langua-ges. (2012) 29.–34.
12. Sikl´osi, B., Nov´ak, A., Pr´osz´eky, G.: Context-aware correction of spelling errors in hungarian medical documents. In Dediu, A.H., Mart´ın-Vide, C., Mitkov, R., Tru-the, B., eds.: Statistical Language and Speech Processing. Volume 7978 of Lecture Notes in Computer Science. Springer Berlin Heidelberg (2013) 248–259
13. Orosz, Gy., Nov´ak, A., Pr´osz´eky, G.: Magyar nyelv˝u klinikai rekordok morfol´ogiai egy´ertelm˝us´ıt´ese. In: IX. Magyar Sz´am´ıt´og´epes Nyelv´eszeti Konferencia, Szeged, Szegedi Tudom´anyegyetem (2013) 159–169
14. Xu, H., Stenner, S.P., Doan, S., Johnson, K.B., Waitman, L.R., Denny, J.C.: Me-dex: a medication information extraction system for clinical narratives. Journal of the American Medical Informatics Association17(1) (2010) 19–24
15. Apostolova, E., Channin, D.S., Demner-Fushman, D., Furst, J., Lytinen, S., Raicu, D.: Automatic segmentation of clinical texts. In: Engineering in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conference of the IEEE, IEEE (2009) 5905–5908
16. Cho, P.S., Taira, R.K., Kangarloo, H.: Text boundary detection of medical re-ports. In: Proceedings of the AMIA Symposium, American Medical Informatics Association (2002) 998
17. Savova, G.K., Masanz, J.J., Ogren, P.V., Zheng, J., Sohn, S., Schuler, K.K., Chute, C.G.: Mayo clinical text analysis and knowledge extraction system (ctakes): archi-tecture, component evaluation and applications. Journal of the American Medical Informatics Association17(5) (2010) 507–513
18. Taira, R.K., Soderland, S.G., Jakobovits, R.M.: Automatic structuring of radiology free-text reports. Radiographics21(1) (2001) 237–245
19. Tomanek, K., Wermter, J., Hahn, U.: Sentence and token splitting based on con-ditional random fields. In: Proceedings of the 10th Conference of the Pacific Asso-ciation for Computational Linguistics. (2007) 49–57
20. Tomanek, K., Wermter, J., Hahn, U.: A reappraisal of sentence and token splitting for life sciences documents. Studies in Health Technology and Informatics129(Pt 1) (2006) 524–528
21. Csendes, D., Csirik, J., Gyim´othy, T.: The Szeged Corpus: A POS tagged and syntactically annotated Hungarian natural language corpus. In: Proceedings of the 5th International Workshop on Linguistically Interpreted Corpora. (2004) 19–
23
22. Kiss, T., Strunk, J.: Unsupervised multilingual sentence boundary detection.
Computational Linguistics32(4) (2006) 485–525
188 X. Magyar Számítógépes Nyelvészeti Konferencia
A magyar beteg
Siklósi Borbála1, Novák Attila1,2
1 Pázmány Péter Katolikus Egyetem, Információs Technológiai és Bionikai Kar
2 MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport 1083 Budapest, Práter utca 50/a
e-mail:{siklosi.borbala, novak.attila}@itk.ppke.hu
Kivonat A klinikai szövegek feldolgozása aktív kutatási terület, mely-nek során az egyik legnagyobb kihívás az ilyen szövegek azon sajátos-ságainak a kezelése, amelyek tekintetében ezek az általános szövegektől jelentősen eltérnek. Ezek között szerepel többek között a sok szakszó és rövidítés, a szinte csak rövidítésekből és numerikus adatokból álló
„mondatok”, valamint a jelentős számú helyesírási és központozási hiba, amelyből többek között a mondathatárok felismerésének rendkívül nehéz volta is következik.
Cikkünkben bemutatjuk a rendelkezésünkre álló magyar klinikai korpusz jellemzőit, különös tekintettel az előbb említett tényezőkre, összevetve azt egy általános tartalmú magyar szövegeket tartalmazó korpusszal.
A szövegek felszíni tulajdonságai mellett összehasonlításokat végeztünk a leggyakoribb szavak disztribúciós szemantikai viselkedése alapján is, melynek során a jelentésbeli különbségek is kimutathatóak a különböző korpuszok között.
1. Bevezetés
A klinikai dokumentumok olyan szövegek, melyek kórházi körülmények között, mindennapi eseteket dokumentálva a kezelések során jönnek létre. Minőségük tehát nem összehasonlítható az elsősorban angol nyelven szintén aktívan vizs-gált orvosi-biológiai szakirodalom nyelvezetével, amelyek többszörös ellenőrzésen keresztülmenve, szigorú nyelvi szabályok betartása mellett keletkeznek [1,2]. A klinikai orvosi szövegek ezzel szemben sietve, minden nyelvi segédeszköz, vagy emberi ellenőrzés nélkül, általában strukturálatlan formában jönnek létre. Jel-lemző továbbá, hogy keletkezésük során ezeknek a dokumentumoknak a címzettje általában az azt leíró orvos maga, tehát az eredeti célját nem befolyásolja a sa-játos nyelvezet, egyedi rövidítések, utalások használata. Ezek a dokumentumok azonban nagyon sok olyan információt és tudást tartalmaznak, amelyeket ezen az elsődleges célon túl, az orvostudomány több területén alkalmazni lehetne. Ehhez arra lenne szükség, hogy a szövegekben leírt tényállásokat olyan formára hozzuk, amely lehetővé teszi ezeknek az információknak a hatékony kinyerését.
Több kísérlet született már a természetes nyelvű szövegek feldolgozásához ál-talánosan használt eszközök orvosi szövegeken való alkalmazására, azonban ezek teljesítménye általában messze elmarad attól a szinttől, amit általános szöve-geken elérnek. Ahhoz, hogy a már bevált módszerek, vagy azoknak egy része
adaptálható legyen az orvosi szövegekre, ismernünk kell ez utóbbinak a jellem-zőit, illetve az általános szövegektől való főbb eltéréseket.
Ehhez több vizsgálatot végeztünk. A korpusz alapján először a felszíni alakok statisztikai eloszlását, majd ugyanezek egy feldolgozási lépéssel későbbi szintű (szótő, szófaj, névelemek, rövidítések) előfordulását vizsgáltuk, összehasonlítva a kapott mintákat az általános korpuszból kinyert adatokkal. Általános szöveg-ként a Szeged Korpuszt használtuk. Jól elkülöníthetővé váltak a két szövegtí-pusban jellemzően előforduló nyelvi szerkezetek. Az eredmények elemzése során kimutathatóak azok a szerkezeti bizonytalanságok, amelyek miatt a klinikai szö-vegek jóval nehezebben értelmezhetőek az általános szöszö-vegeknél. Ilyen jellemzők nemcsak a rengeteg szakkifejezés jelenléte, hanem a szövegek gyakran rendkívül pongyola megformálása és az azonos fogalmak jelölésére konkrétan használt írott alakok rendkívüli változatossága is.
Természetesen a lexikai alakok vizsgálata során azok összehasonlítása nem vizsgálható érdemben, hiszen a szakkifejezések előfordulási aránya nyilvánvalóan nagyobb a szakszövegekben. A klinikai dokumentumokra azonban jellemző, hogy az esetleírásoknál, különösen a panaszok felvétele során egészen hétköznapi tör-ténetek leírása is szerepel. Ennek a kevert orvosi nyelvnek a statisztikai jellemzői is felismerhetők a korpusz önmagában való vizsgálata során.
Tanulmányunk célja a részletes statisztikai vizsgálatok alapján azon jelen-ségek bemutatása, amik igazolják az orvosi-klinikai szövegek feldolgozásának nehézségeit, illetve irányadók lehetnek a különböző eszközök fejlesztése során, melyek paraméterei így a specifikus problémákhoz hangolhatóak.