• Nem Talált Eredményt

Pataki MátéTóth Zoltán ő hibák elemzése magyar szövegek esetében Szkenneltszövegek digitalizálása során keletkez DSD

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Pataki MátéTóth Zoltán ő hibák elemzése magyar szövegek esetében Szkenneltszövegek digitalizálása során keletkez DSD"

Copied!
20
0
0

Teljes szövegt

(1)

DSD

Department of Distributed

Systems

MTA SZTAKI DSD

Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében

Pataki Máté

Tóth Zoltán

(2)

DSD

Department of

DSD

Distributed Systems

Tartalomjegyzék

n Szöveges dokumentumok digitalizálása

n Tesztek

n Hibatípusok

n Tapasztalatok

(3)

DSD

Department of

DSD

Distributed Systems

Szöveges dokumentumok digitalizálása

1. Mintavételezés (szkennelés)

2. Kvantálás

3. Előfeldolgozás

4. Karakterfelismerés

5. Szófelismerés, szövegfeldolgozás

(4)

DSD

Department of

DSD

Distributed Systems

Mintavételezés

Ha nem teljesül a Nyquist feltétel,

spektrumátfedési hiba

lép fel (Moiré effektus)

(5)

DSD

Department of

DSD

Distributed Systems

Kvantálás

Szürkeskálás kép 8 bites, 4 bites

és 1 bites verziói

(6)

DSD

Department of

DSD

Distributed Systems

Előfeldolgozás I

n Zajszűrés

n Geometriai torzítás korrekciója

n Előtér háttér szeparáció

n Szegmentáció, szerkezetfelismerés

n Morfológiai képfeldolgozó operátorok alkalmazása

n Képi tulajdonságok kinyerése

(7)

DSD

Department of

DSD

Distributed Systems

Előfeldolgozás II

Szegmentálás Binarizálás

Vázosítás Kontúrdetekció

(8)

DSD

Department of

DSD

Distributed Systems

Előfeldolgozás III

Poligonillesztés

Konvex befoglaló (és az eredeti objektum

különbségének)

meghatározása

(9)

DSD

Department of

DSD

Distributed Systems

Karakterfelismerés (OCR)

n Mintaegyeztetés

A mintát a betű képére illesztjük, és megmérjük az egyezés mértékét

n Tulajdonság alapú

A karakterek speciális sajátosságainak, szabályainak vizsgálata

n Hierarchikus, komplex módszer

(10)

DSD

Department of

DSD

Distributed Systems

Szófelismerés, szövegfeldolgozás

n Célja, hogy nyelvtani szabályok

felhasználásával OCR hibákat szűrjön ki

n További hibákat is bevihet a rendszerbe

n Nyelvfüggő

1 (76%) I (80%) á (80%)

h (62%) l (85%)

d (79%) o (83%)

k (96%) a (89%)

i (88%) b (90%)

a (95%)

(11)

DSD

Department of

DSD

Distributed Systems

Tesztek - tesztrendszer

n Humán tesztek

n Gépi teszt

n Dokumentum nyomtatása

n Mesterséges hibák generása

n Karakterfelismerés

n Összehasonlítás

n Kinyomtatott szöveg

n Szkennelés eredménye

(12)

DSD

Department of

DSD

Distributed Systems

Mesterséges hibák

(13)

DSD

Department of

DSD

Distributed Systems

Mesterséges hibák

Kávéfoltos szöveg

(14)

DSD

Department of

DSD

Distributed Systems

A karakterfelismerés hibái

n Ékezethibák

veréb/véreb, alma/álma, hó/hő

n Írásjelek tévesztése (- – — , . ; : )

n Betűcserék (M m, é e)

n Az i betű felismerési problémái (í i I 1)

n Számok és betűk keverése (g 9, J 3, O 0)

n Az o és ö betű felismerési problémái

(15)

DSD

Department of

DSD

Distributed Systems

2007. április 12.

Leggyakrabban előforduló hibás karaktercserék

11401 w

W

13975

"

13992 i

í

15324 NULL

18301 o

ó

21321 õ

o

30378 -

NULL

40180 ,

40713 9

g

42109 v

V

43263 55990 NULL

-

71436 a

á

75882 e

é

82358

— -

124103 m

M

Count OCR

Orig Orig OCR Count

5627 L

i

5671 Z

Z

5689 O

õ

5831 Ö

Ö

6268 NULL

6469 Û

u

6531 .

NULL

6744 '

NULL

7438 Ó

õ

7444

• NULL

7617 3

J

7896 u

ú

8108 B

D

8412 -

¢

9804 ú

Ú

10048 u

U

10130 i

I

Count OCR

Orig

3112 ó

o

3184 NULL

,

3283 J

j

3913 E

É

3959 ü

û

4198 NULL

.

4248 á

a

4503 é

e

4619 -

¡

4635 ,

NULL

5025 -

5091 t

£

5167

 o

5270 l

í

5337 NULL

-,

5442

"

5488 õ

Õ

(16)

DSD

Department of

DSD

Distributed Systems

Ö és Ő betűk felismerésének problémája

1213 ö

o

1361 Ó

ó

3112 ó

o

5488 õ

Õ

5689 o

õ

5831 ö

Ö

7438 ó

õ

18301 o

ó

21321 õ

o

Count OCR

Orig

(17)

DSD

Department of

DSD

Distributed Systems

Leggyakoribb szóhibák

-5138 5906

768 mag

5197 88244

93441 jó

6001 117331

123332 És

7591 754575

762166 is

11164 7914 19078

Ő

9717 293412

303129 már

9872 14514

24386 Így

10392 695371

705763 egy

10728 278288

289016 még

11216 1080086

1091302 nem

14100 20643

34743 Úgy

14992 1965373

1980365 az

17282 461786

479068 de

17833 1153779

1171612 hogy

32925 5498

38423 s

38083 1281757

1319840 és

45722 5716296

5762018 a

Különbség OCR

Eredeti

Szó Szó Eredeti OCR Különbség

-10976 20989

10013 c

-8968 16220

7252 p

-8500 12658

4158 ra

-8023 145848

137825 úgy

-7556 7825

269 lt

-7548 7575

27 ao

-7510 9171

1661 st

-7190 7194

4 ho9y

-7073 7688

615 mar

-6942 9396

2454 val

-6564 8305

1741 z

-6244 19055

12811 ban

-6186 8567

2381 nt

-6095 7675

1580 gy

-5813 10760

4947 11

-5604 5606

2 e9y

-5581 23842

18261 d

(18)

DSD

Department of

DSD

Distributed Systems

Szavak ragozott alakjainak száma

145 úr

145 barát

146 ér

150 kéz

151 szó

155 áll

156 szív

156 ember

157 vár

157 él

162 fog

169 hív

173 láb

Ragozott alakok száma Szó

129 lát

129 néz

129 apa

132 hall

134 út

135 ruha

137 tart

137 város

137 fej

137 talál

139 beszél

139 mond

140 tesz

Ragozott alakok száma Szó

120 ír

121 ismer

122 olvas

123 maga

125 fal

126 hely

126 ház

126 hajó

128 ad

128 dolog

128 nyom

128 álom

Ragozott alakok száma Szó

(19)

DSD

Department of

DSD

Distributed Systems

Szavak ragozott alakjainak száma

1. lábak 2. lábam 3. lábadra 4. lábamat 5. lábáig 6. lábánál

7. lábacskáját

8. lábammal

9. lábukkal

10. lábakra

(20)

DSD

Department of

DSD

Distributed Systems

WEB: http://dsd.sztaki.hu Email: Mate.Pataki@sztaki.hu

Köszönöm a figyelmüket!

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

76 A vizsgálat célja, hogy kö- vetkeztetéseket lehessen levonni a magyar és az angol nyelvpár esetében a fordítás során esetlegesen keletkező ismétléseltolódások jellegét

Az adatok elemzése során kapott eredmények azt mutatják, hogy a korai kétnyelvű személyek esetében mind a két nyelv úgy működik, mint az egynyelvűek

Egy moldvai csángó terep női

Képviselőinek az a célja, hogy a szövegek nyelvi elemzése révén bemutassák azokat a rejtett ideológiákat, amelyek befolyásolják, hogy az emberek miként

Az előrejelzési hibák elemzése...

A szaknyelvi specifikumok elemzése során természetesen nem csupán lexikai kérdé- sekre koncentrálunk, hanem megfelelő szövegek feldolgozásával számba vesszük az egyéb

Előadásom a magyar nyelvű könyvnyomtatás első fél évszázadában megjelent nyomtatványok reprezentatív korpusza, a Magyar Antikvakorpusz 1 fejlesztésének egy

alapvetően az irodalmi szövegek vizsgálatából indul ki, s ezek felől halad az anyagi kultúra emlékeinek elemzése felé. Nem csupán felsorolást kapunk itt, de az egyes