DSD
Department of Distributed
Systems
MTA SZTAKI DSD
Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében
Pataki Máté
Tóth Zoltán
DSD
Department of
DSD
Distributed Systems
Tartalomjegyzék
n Szöveges dokumentumok digitalizálása
n Tesztek
n Hibatípusok
n Tapasztalatok
DSD
Department of
DSD
Distributed Systems
Szöveges dokumentumok digitalizálása
1. Mintavételezés (szkennelés)
2. Kvantálás
3. Előfeldolgozás
4. Karakterfelismerés
5. Szófelismerés, szövegfeldolgozás
DSD
Department of
DSD
Distributed Systems
Mintavételezés
Ha nem teljesül a Nyquist feltétel,
spektrumátfedési hiba
lép fel (Moiré effektus)
DSD
Department of
DSD
Distributed Systems
Kvantálás
Szürkeskálás kép 8 bites, 4 bites
és 1 bites verziói
DSD
Department of
DSD
Distributed Systems
Előfeldolgozás I
n Zajszűrés
n Geometriai torzítás korrekciója
n Előtér háttér szeparáció
n Szegmentáció, szerkezetfelismerés
n Morfológiai képfeldolgozó operátorok alkalmazása
n Képi tulajdonságok kinyerése
DSD
Department of
DSD
Distributed Systems
Előfeldolgozás II
Szegmentálás Binarizálás
Vázosítás Kontúrdetekció
DSD
Department of
DSD
Distributed Systems
Előfeldolgozás III
Poligonillesztés
Konvex befoglaló (és az eredeti objektum
különbségének)
meghatározása
DSD
Department of
DSD
Distributed Systems
Karakterfelismerés (OCR)
n Mintaegyeztetés
A mintát a betű képére illesztjük, és megmérjük az egyezés mértékét
n Tulajdonság alapú
A karakterek speciális sajátosságainak, szabályainak vizsgálata
n Hierarchikus, komplex módszer
DSD
Department of
DSD
Distributed Systems
Szófelismerés, szövegfeldolgozás
n Célja, hogy nyelvtani szabályok
felhasználásával OCR hibákat szűrjön ki
n További hibákat is bevihet a rendszerbe
n Nyelvfüggő
1 (76%) I (80%) á (80%)
h (62%) l (85%)
d (79%) o (83%)
k (96%) a (89%)
i (88%) b (90%)
a (95%)
DSD
Department of
DSD
Distributed Systems
Tesztek - tesztrendszer
n Humán tesztek
n Gépi teszt
n Dokumentum nyomtatása
n Mesterséges hibák generása
n Karakterfelismerés
n Összehasonlítás
n Kinyomtatott szöveg
n Szkennelés eredménye
DSD
Department of
DSD
Distributed Systems
Mesterséges hibák
DSD
Department of
DSD
Distributed Systems
Mesterséges hibák
Kávéfoltos szöveg
DSD
Department of
DSD
Distributed Systems
A karakterfelismerés hibái
n Ékezethibák
veréb/véreb, alma/álma, hó/hő
n Írásjelek tévesztése (- – — , . ; : )
n Betűcserék (M m, é e)
n Az i betű felismerési problémái (í i I 1)
n Számok és betűk keverése (g 9, J 3, O 0)
n Az o és ö betű felismerési problémái
DSD
Department of
DSD
Distributed Systems
2007. április 12.
Leggyakrabban előforduló hibás karaktercserék
11401 w
W
13975
"
”
13992 i
í
15324 NULL
18301 o
ó
21321 õ
o
30378 -
NULL
40180 ,
‚
40713 9
g
42109 v
V
43263 55990 NULL
-
71436 a
á
75882 e
é
82358
— -
124103 m
M
Count OCR
Orig Orig OCR Count
5627 L
i
5671 Z
Z
5689 O
õ
5831 Ö
Ö
6268 NULL
6469 Û
u
6531 .
NULL
6744 '
NULL
7438 Ó
õ
7444
• NULL
7617 3
J
7896 u
ú
8108 B
D
8412 -
¢
9804 ú
Ú
10048 u
U
10130 i
I
Count OCR
Orig
3112 ó
o
3184 NULL
,
3283 J
j
3913 E
É
3959 ü
û
4198 NULL
.
4248 á
a
4503 é
e
4619 -
¡
4635 ,
NULL
5025 -
5091 t
£
5167
o
5270 l
í
5337 NULL
-,
5442
"
“
5488 õ
Õ
DSD
Department of
DSD
Distributed Systems
Ö és Ő betűk felismerésének problémája
1213 ö
o
1361 Ó
ó
3112 ó
o
5488 õ
Õ
5689 o
õ
5831 ö
Ö
7438 ó
õ
18301 o
ó
21321 õ
o
Count OCR
Orig
DSD
Department of
DSD
Distributed Systems
Leggyakoribb szóhibák
-5138 5906
768 mag
5197 88244
93441 jó
6001 117331
123332 És
7591 754575
762166 is
11164 7914 19078
Ő
9717 293412
303129 már
9872 14514
24386 Így
10392 695371
705763 egy
10728 278288
289016 még
11216 1080086
1091302 nem
14100 20643
34743 Úgy
14992 1965373
1980365 az
17282 461786
479068 de
17833 1153779
1171612 hogy
32925 5498
38423 s
38083 1281757
1319840 és
45722 5716296
5762018 a
Különbség OCR
Eredeti
Szó Szó Eredeti OCR Különbség
-10976 20989
10013 c
-8968 16220
7252 p
-8500 12658
4158 ra
-8023 145848
137825 úgy
-7556 7825
269 lt
-7548 7575
27 ao
-7510 9171
1661 st
-7190 7194
4 ho9y
-7073 7688
615 mar
-6942 9396
2454 val
-6564 8305
1741 z
-6244 19055
12811 ban
-6186 8567
2381 nt
-6095 7675
1580 gy
-5813 10760
4947 11
-5604 5606
2 e9y
-5581 23842
18261 d
DSD
Department of
DSD
Distributed Systems
Szavak ragozott alakjainak száma
145 úr
145 barát
146 ér
150 kéz
151 szó
155 áll
156 szív
156 ember
157 vár
157 él
162 fog
169 hív
173 láb
Ragozott alakok száma Szó
129 lát
129 néz
129 apa
132 hall
134 út
135 ruha
137 tart
137 város
137 fej
137 talál
139 beszél
139 mond
140 tesz
Ragozott alakok száma Szó
120 ír
121 ismer
122 olvas
123 maga
125 fal
126 hely
126 ház
126 hajó
128 ad
128 dolog
128 nyom
128 álom
Ragozott alakok száma Szó
DSD
Department of
DSD
Distributed Systems
Szavak ragozott alakjainak száma
1. lábak 2. lábam 3. lábadra 4. lábamat 5. lábáig 6. lábánál
7. lábacskáját
8. lábammal
9. lábukkal
10. lábakra
DSD
Department of
DSD
Distributed Systems