Hibajavítási idő csökkentése magyar nyelvű diktálórendszerben

(1)

Hibajavítási idő csökkentése magyar nyelvű diktálórendszerben

Szabó Lili¹, Tarján Balázs¹, Mihajlik Péter^1,2, Fegyó Tibor^1,3

1 Budapesti Műszaki és Gazdaságtudományi Egyetem, Távközlési és Médiainformatikai Tanszék,

{lili,tarjanb}@tmit.bme.hu

2 THINKTech Kutatási Központ Nonproﬁt Kft., mihajlik@thinktech.hu

3 SpeechTex Kft.

tfegyo@speechtex.com

Kivonat A gépi beszédfelismerésen alapuló diktálórendszerek természe- tes velejárója a felismerési hiba, melyet tipikusan a szófelismerési hiba- aránnyal jellemzünk. A felhasználó számára azonban nem a klasszikus szóhibaarány a meghatározó mint használhatósági metrika, hanem sokkal inkább a hibajavítási idő. Cikkünkben azt vizsgáljuk, hogy valós, magyar nyelvű, relatíve kötött témájú (EU-s joganyagok) diktálási feladat esetén milyen faktorok befolyásolják elsődlegesen a hibajavítási időt, azt hogyan lehet csökkenteni. A saját rendszerünket összevetettük a piacon ingyenesen hozzáférhető magyar nyelvű diktálórendszerekkel. Megmutat- tuk, hogy a beszédfelismerési modellek feladatra szabásán túl az írásjelek, speciális rövidítések és egyéb szövegszerkesztési parancsok diktálhatósá- gának lehetővé tétele jelentősen csökkentheti a diktálásra fordított időt és energiát, így növelve a felhasználói elégedettséget.

1. Bevezetés

Cikkünk témája egy korábbi nagyszótáras, magyar nyelvre fejlesztett, folyamatos beszédfelismerőn alapuló e-mail diktálórendszer [1] továbbfejlesztése, valamint a diktálási feladat felhasználó számára történő megkönnyítése. A legfejlettebb technológiát alkalmazó, beszélőre adaptált, célfeladatra tanított automatikus be- szédfelismerő rendszerek angol nyelvre, 90-95%-os felismerési pontossággal mű- ködnek. Egy, a beszédfelismerésen alapuló diktálást napi szinten, professzionális célokra használó felhasználó számára akár ennél magasabb felismerési pontos- ság is elégedetlenséghez vezethet, tekintve, hogy egy felismerési hiba észlelése és javítása akár 15-30 másodpercet is igénybe vehet [2]. Mivel a diktálási feladat természetes velejárója a felismerési hibák javítása, ezért a hibajavítás támoga- tása elengedhetetlen komponense egy diktálórendszernek. Jelen tanulmányunk- ban hibajavításon mind a szöveg utólagos formázását, mind a felismerő által ejtett hibák utólagos korrigálását értjük. Feltételezésünk szerint a felismerési kimenetben szereplő hibák észlelését nagymértékben könnyíti a szöveg jólformá- zottsága. Egy felismerési kimenetben alapértelmezésben nem szerepelnek sem

(2)

írásjelek, sem nagy kezdőbetűs alakok, illetve szövegszakaszokat határoló sortö- rések, és szükséges ezek helyreállítása ahhoz, hogy a felhasználó egy formázott szöveget tudjon létrehozni.

Természetesen már önmagában a felismerési hibák csökkentése is nagy sze- repet játszhat a hibajavítási idő csökkentésében. Ennek, és a piaci termékekkel való összevethetőségnek az érdekében egy kötött témájú (closed domain), jogi- törvénykezési diktálásra optimalizált rendszert építettünk, ami azért előnyös, mert a felismerési hiba csökkenését eredményezi, ezáltal lehetőséget teremtve a hibajavítási folyamatot támogató új módszerek kipróbálására. Magyar nyelvre ingyenesen hozzáférhető, beszédfelismerésen alapuló diktálórendszer a Google webalapú⁴, és a Nuance okostelefonra készített szövegbeviteli alkalmazásába⁵ integrált beszédfelismerési szolgáltatásaként érhető el. Tanulmányunkban ezeket vetjük össze rendszerünkkel, leginkább a hibajavítási folyamat szempontjából.

A 2. fejezetben beszédfelismerési kimenetek szerkesztésével foglalkozó leg- újabb kutatásokat tekintjük át. A 3. fejezet a diktálórendszerek kiértékelését végző metrikákat, és a SpeechTex rendszer felépítését írja le. A 4. fejezet a dik- tálórendszerek összehasonlításához végrehajtott kísérletek felépítését ismerteti.

Az 5. és 6. fejezetek a kísérletek eredményeit és tanulmányunkban levont követ- keztetéseket tartalmazzák.

2. Irodalmi áttekintés

A mondathatárok automatikus detektálása, nagy kezdőbetű- és írásjel-visszaál- lítás a beszédfelismerési kimenetben egy gyakran kutatott téma a szakirodalom- ban [3]. Gépi tanulásos algoritmusokat használó módszerekkel ezen feladatokon elért pontosság 30-50% körül mozog [4,3]. A feladatot nehezítik a felismerési kimenetben különböző arányban előforduló hibák. Magyar nyelvre hasonló megol- dást [5]-ben találhatunk. Ebben a kutatásban különböző modalitású tagmondat- típusokra HMM modelleket építettek, amelyek segítségével a tagmondatfajtákat felismerték. A felismeréshez felhasználták egy, a tagmondatok egymás utáni sor- rendjét ﬁgyelembe vevő szöveg szintű prozódiai modellt is. 6 tagmondattípus és egy szünetmodell, mellett 50%-os pontosságot értek el (úgy, hogy a helyesen felismert írásjelek aránya 70% körül mozgott). Az automatikus írásjelezésre al- ternatív megoldás, az írásjelek diktálhatóságának lehetővé tétele, melyet jelen fejlesztés során alkalmaztunk, igen magas pontossággal működik.

A hibajavítási folyamat támogatása ehhez szorosan kapcsolódó téma. Az ed- digi kutatások azt tükrözik, hogy csupán a felismerési pontosság javítása nem elegendő, hiszen hibák mindig lesznek a felismerési kimenetben, ezért magát a hibajavítási folyamatot kell meggyorsítani és megkönnyíteni a felhasználó szá- mára. Az egyik megközelítés a jelenség kezelésére a beszédfelismerő adaptálása a felhasználók javításait visszacsatolva: szótárban nem szereplő szavak hozzáadása a nyelvi modellhez, a nyelvi modell újrasúlyozása, valamint kiejtési alternatívák

4 https://www.google.com/intl/en/chrome/demos/speech.html

5 http://www.swype.com

(3)

generálása [6]. A másik módszer a felismerési kimenet utógondozása. A hagyo- mányos helyesírás-ellenőrzéstől abban lényegesen különbözik ez a feladat, hogy a beszédfelismerési kimenetben kizárólag olyan szavak fordulhatnak elő, amelyek szerepeltek a nyelvi modell tanításához használt korpuszban. Ebből következik, hogy a kimenetben előforduló hibák „valódi szavas" (real word) hibák, melyek kezelése egy, a kontextust is ﬁgyelembe vevő eljárást igényel. Számos módszer született már a probléma megoldására; a hagyományosnak tekinthetőnoisy chan- nel [8] modellben egy mondat összes szavától adott szerkesztési távolságra lévő szavak potenciálisan helyes szavak, a javítás a legvalószínűbb szósorozat kivá- lasztásával történik, tetszőleges n-gram alapon.

Az automatikus beszédfelismerés felhasználó-központú, illetve a hibajavítási folyamat szempontjából történő kiértékelése egy aránylag kevés ﬁgyelmet kapó terület, [7] tartalmaz egy körültekintő tanulmányt különböző diktálási tapasztalattal rendelkező felhasználók újonnan elsajátított hibajavítási szokásaival, a hangsúly itt inkább az egyének közötti változatosságon van, mintsem a hibaja- vítási folyamat kvantitatív értékelésén.

3. Módszer

3.1. Kiértékelés

Szóhibaarány. A szóhibaarány (word error rate - WER) az automatikus be- szédfelismerésen alapuló rendszerek egyik legnépszerűbb kiértékelési módszere.

A szavak szintjén méri a hibás behelyettesítések (S), törlések (D) és beillesztések (I) számát a felismerési kimenetben, és ezek arányát a referenciában előforduló szavak számához (N) képest.

Szóhibaarány = S+D+I

N (1)

Új metrikák. Egy diktálórendszer teljeskörű kiértékelése csak úgy lehetséges, ha az a felhasználó nézőpontját is ﬁgyelembe veszi. Ennek érdekében három új mérőszámot/metrikát vezettünk be, amik a hibajavítási folyamatot hivatottak kiértékelni:

1. Szerkesztési Idő: mennyi időt vesz igénybe a felhasználónak a felismerési kimenetben a hibákat megtalálni és javítani, valamint a szöveget jólformázott alakra hozni.

2. Sikerességi Ráta: milyen mértékben sikerül a felhasználónak a felismerési kimenetet a kívánt/eredeti szöveg alakjára hozni. A szóhibaarányhoz ha- sonlóan a behelyettesítéses (S), törléses (D) és beillesztéses (I) hibák karak- terszintű számolása a már szerkesztett kimenetben (lényegében Levenshtein- távolság az eredeti szövegtől) elosztva/normalizálva az eredeti szövegben elő- forduló szavak számával (N), az írásjeleket is ﬁgyelembe véve.

3. Gépelési Idő: mennyi időt vesz igénybe ugyanazon eredeti szöveg legépelése másodpercben.

(4)

3.2. Rendszerek

A 1. táblázat összefoglalja a három diktálórendszer jellemzőit. Megjegyzendő, hogy míg a Google rendszer magyar nyelvre nem rendelkezik sem az írásjelek diktálhatóságának, sem az írásjelek automatikus helyreállításának funkciójával, a Nuance rendszer az automatikus helyreállítás jeleit mutatja, noha ez becslésünk szerint az esetek kevesebb, mint 10%-ban fordul elő.

1. táblázat. A három rendszer funkcióinak összehasonlítása.

Funkciók Google Nuance SpeechTex Írásjelek – automatikus diktálva Nagybetűsítés– automatikus diktálva Ütemezés valós idejű késleltetett valós idejű Domain nyitott nyitott törvénykezés

3.3. Korpusz és normalizálás

A nyelvi modell építéséhez használt korpusz [9] egy többnyelvű adatbázis az európai parlamenti ülések leiratainak hivatalos fordításaiból, amiből a magyar ún.fordítási egységeket használtuk fel. A korpusz adatait a 2. táblázat foglalja össze.

2. táblázat. DGT-TM korpusz adatok normalizálás előtt normalizálás után korpusz rész token type token type

tanító 35.3 M 1.3 M 43.3 M 645 K

dev 129 K 27 K 145 K 18 K

eval 94 K 21 K 114 K 15 K

A normalizálás első lépése a mondathatárok helyreállítása volt. Ez a mon- datvégi pont és a rövidítések, valamint a mondatkezdő nagybetűs szó és a tulajdonnevek egymástól való elválasztásával történt, a korpuszban előforduló gya- koriságok alapján. Az ezt követőtokenizálás során a következőtoken típusokat különböztettük meg: szavak, tulajdonnevek, mozaikszavak, rövidítések, URL-ek, email-címek, számok, dátumok, jogi jelölések, speciális szimbólumok, egyéb nem nyelvi elemek. Ezek átalakítása szöveges alakra, valamint a beszélt formára nem alakítható egyéb nem nyelvi elemek eltávolítása reguláris kifejezések segítségével történt.

Duplikációk detektálása és eltávolítása a nyelvi modell simításához fontos, hogy megtörténjen, mert a simítási eljárás során használt counts-of-counts-ok

(5)

eloszlását zavarja, ha páros számú count-ok kiugróan magasabbak, mint a pá- ratlanok, és acount-ok nem egyenletesen csökkenő eloszlást követnek.

3.4. Nyelvi modell

A nyelvi modell módosított Kneser-Ney simítás használatával készült az SRI Language Modeling Toolkit (SRILM) [11] segítségével. A létrehozott trigram (3-gram), szóalapú modellekben entrópiaalapú metszést egyetlen esetben sem alkalmaztuk.

3.5. Akusztikus modell

Az Egri Katolikus Rádió (EKR) beszélgetéseiből válogatott, összesen 43 óra hanganyagon tanított, környezetfüggő akusztikus modell a HTK [10] eszközei- nek segítségével készült, ami összesen 6121 egyenként 13 Gauss-függvényből álló állapotot tartalmaz. A 16 kHz-en mintavételezett felvételek lényegkiemeléséhez 39 dimenziós, delta és delta-delta értékkel kiegészített mel-frekvenciás kepsztrá- lis komponenseken alapuló jellemzővektorokat hoztunk létre, és vak csatornaki- egyenlítő eljárást is alkalmaztunk.

3.6. Hálózatépítés és dekódolás

A legvalószínűbb illeszkedés kereséséhez használt dekódolási folyamat szerver- kliens-architektúra alapján működik. A rendszer által használt beszédfelismerő kliens (VOXclient) végzi a beszédalapú információ lényegkiemelését és a 3.5 fejezetben vázolt jellemzővektorokká való alakítását. A jellemzővektorokat ezután a kliens továbbküldi a szerveroldali alkalmazásnak (VOXerver), ahol a tényleges dekódolási lépések megtörténnek. A legvalószínűbb illeszkedés megtalálásához a beszédfelismerési modelleket ún. súlyozott, véges állapotú átalakítókban (Weigh- ted Finite State Transducer - WFST) [12] egyesítjük. A szerver a kliensoldal felé végül visszaküldi a megtalált legvalószínűbb felismerési kimenetet; minden fris- sítés 250 ms-onként zajlik. A normalizálás során átalakított nem verbális nyelvi elemek (számok, URL-ek) írott formára való visszaalakítása szintén a kliens ol- dalon történik a már visszaküldött legvalószínűbb felismerési kimeneten.

4. Kísérletek

A magyar nyelvre ingyenesen elérhető gépi beszédfelismerő rendszerek teljesít- ményének felhasználó szempontú összehasonlítását egy 6 résztvevős (3-3 férﬁ/nő, életkor: 22-38 év) kísérletben végeztük, amiben a résztvevők

1. egy rövid (7 mondatból álló) jogi szöveget olvastak fel 2 módban:

(a) normál olvasási mód és

(b) az írásjelek hangalakjának diktálásával, majd a hanganyagokat rögzítettük.

(6)

2. A felismerés

(a) a Google és Nuance rendszerek esetében a normál olvasási módban, (b) SpeechTex rendszer esetében pedig az írásjelek hangalakjának diktálásá-

val

készült változatokon történt.

3. Ezeken a kimeneti szövegeken zajlott aztán a hibajavítási feladat, ami a felis- merési hibák detektálását, javítását és egyéb szövegszerkesztési műveleteket foglalja magába.

4. A beszédfelismerésen alapuló diktálási tapasztalatokról végül egy kérdőívben kérdeztük a résztvevőket, amiben egy Likert-alapú skálán (az adott állítás- sal való egyetértés erősségének kifejezése egy 1-5-ig terjedő intervallumban) kellett értékelniük a diktálási feladatot és a kísérletben szereplő diktálórend- szerek teljesítményét.

5. Eredmények

Nem parametrikus páros, egymintás Mann-Whitney-Wilcoxon tesztekkel ellen- őriztük, hogy a rendszerek közti szóhibaarányok szigniﬁkánsan különböznek-e.

A SpeechTex rendszer szóhibaaránya szigniﬁkánsan (p<0.01) alacsonyabb volt, mint Google-é és Nuance-é, ami nem meglepő annak fényében, hogy a Speech- Tex rendszer in-domain nyelvi adaton lett tanítva. Részletes eredmények a 3.

táblázatban találhatók, ebben fel vannak tüntetve mindhárom rendszer mindkét olvasási módon (normál, illetve az írásjelek diktálásával) elért szóhibaarányai.

Jól látható, hogy a Google és Nuance rendszerek az írásjelek diktálása módban magasabb szóhibaaránnyal dolgoznak, ezek nyelvi modelljei noha tartalmazzák az írásjelek (pont, vessző, stb.) kiejtett alakjait mint homofónokat, tehát nem abban funkcióban és sorrendiségben mint ahogy azok az írásjeles diktálási mód- ban történő diktáláskor szerepelnek. A SpeechTex rendszernél a normál olvasási mód eredményez magasabb szóhibaarányt, hiszen a nyelvi modell tartalmazza az írásjelek kiejtett alakját, és ezek elég gyakran fordultak elő a korpuszban ahhoz, hogy el nem hangzásuk rontsa a felismerési pontosságot.

Szerkesztési időt tekintve azonban csak a SpeechTex rendszeré szigniﬁkánsan (p<0.01) alacsonyabb, mint Google-é és Nuance-é, ez utóbbi kettő közt nincs szigniﬁkáns különbség.

Mint azt a 1. ábra mutatja, hogy a szóhibaarány és szerkesztési idő közötti korreláció szigniﬁkáns és erős (R² = 0.66). Ezt árnyalja, hogyha az írásjelek diktálhatóságát mint faktort tekintjük; a 2. ábrán jól látható, hogy ugyanolyan szóhibaarány mellett az írásjelek diktálhatóságát lehetővé tevő rendszer alacsonyabb szerkesztési időt eredményez.

A 3.1. fejezetben leírt sikerességi ráta átlagosan 97,5% a Google, 98,9% a Nu- ance és 99,4% a SpeechTex rendszernél, és kizárólag a SpeechTex és Google közti különbség szigniﬁkáns. Érdekes a sikerességi ráta összefüggése a szerkesztési idő- vel; azt találtuk, hogy fordított kapcsolat áll fenn: minél hosszabb a szerkesztési idő (R² = −0,47079), annál alacsonyabb a sikerességi ráta. Ez azt jelenti, hogy átlagosan több hiba marad egy több ideig szerkesztett kimeneti szövegben.

(7)

3. táblázat. Szóhibaarányok.

Normál Írásjeles

Résztvevő Google Nuance SpeechTex Google Nuance SpeechTex

n1 22.3 9.7 8.3 38.5 23.4 6.6

n2 59.7 43.7 40.8 51.4 33.3 23.9

n3 18.4 10.2 8.3 34.2 na 7.0

f1 20.9 14.6 11.2 36.2 19.3 6.6

f2 29.1 34.5 10.7 42.4 32.9 5.3

f3 26.7 21.4 14.1 40.7 21.0 11.9

Átlag 29.5 22.3 15.5 40.5 25.9 10.2

Szórás 15.2 13.9 12.5 6.0 6.6 7.0

s n

g

s n

g

s

g n

s

g

ns

g n

s

g

n

0 10 20 30 40 50 60

200300400500600

Szóhibaarány és szerkesztési idő korrelációja

Szóhibaarány

Szerkesztési idő (mp)

R²=0.66

●

f1 f2 f3 n1 n2 n3 g

n s

Google Nuance SpeechTex

1. ábra. Szóhibaarány és szerkesztési idő korrelációja.

(8)

●●

●

0 10 20 30 40 50 60

200300400500600

Írásjelek diktálhatósága

Szóhibaarány

Szerkesztési idő (mp)

● diktálható nem diktálható

2. ábra. Szóhibaarány és szerkesztési idő az írásjelek diktálhatóságának függvé- nyében.

4. táblázat. Diktálási tapasztalat és szerkesztési vs. gépelési idő becslése az automatikus beszédfelismerőn alapuló diktálás függvényében (nincs’, ‘van’, ‘rendszeres’)

a diktálás és szerkesztés ... mint a gépelés nincs van rendszeres

sokkal lassabb 1

lassabb 1

ugyanannyi 2

gyorsabb

sokkal gyorsabb 2

Végül a diktálással és szerkesztéssel eltöltött időt mértük össze ugyanazon szöveg begépelésének idejével - ilyen adat csak 3 résztvevőtől állt rendelkezé- sünkre. A 3. ábra mutatja, hogy néhány kiugróan magas együttes szerkesztési és diktálási időtől eltekintve, az együttes diktálási és szerkesztési idő rövidebb, mint a gépelési idő átlagosan. Az utólagos kérdőívből azonban az derült ki, hogy a diktálási tapasztalattal nem rendelkező résztvevők hosszabbnak érzékelték a dik- tálással és szerkesztéssel együttesen eltöltött időt, mint ugyanezen szövegbeviteli feladat gépeléssel való végrehajtását (l. 4. táblázat).

(9)

f1 f2 f3 n1 n2 n3

400500600700

Diktálási + szerkesztési idő vs. gépelési idő

Beszélő

Diktálási + szerkesztési idő (mp)

s n g

s g n

s g

n

s g n

s g

n

átlagos gépelési idő (mp)

x g n s

egyénenkénti gépelési idő Google

Nuance SpeechTex

3. ábra. Diktálási és szerkesztési idő összevetése a gépelési időtartammal.

6. Összefoglalás

A beszédfelismerési kutatások középpontjában tipikusan a szófelismerési hiba csökkentése áll. Azonban az egyes speciális alkalmazásoknál, mint például a dik- tálás, a felhasználó számára közvetlenül nem a szóhibaarány, hanem elsősorban a diktálásra és javításra fordított idő csökkentése releváns. Tanulmányunkban az utóbbi célt tűztük ki. Egyrészt a számunkra közvetlenül hozzáférhető SpeechTex beszédfelismerési motor feladatra szabását végeztük el, másrészt a megoldásun- kat összehasonlítottuk a lehetséges piaci alternatívákkal. A kimeneti szöveg jól- formázottsága érdekében a fejlesztés során kiemelt hangsúlyt kapott az írásjelek diktálhatósága. Ezzel a funkcióval ismereteink szerint a vizsgálatok végzésekor nem bírtak a magyar nyelven ingyenesen hozzáférhető piaci termékek. Az össze- hasonlítást kontrollált körülmények között végeztük, kitüntetett ﬁgyelemmel a hibajavítási folyamatra. Az eredmények igazolták, hogy a lecsökkent szóhiba- arány gyorsabb hibajavítással jár együtt. Ugyanakkor, tapasztalataink szerint az írásjelek diktálás során történő elhelyezése magát a hibajavítási folyamatot is gyorsította azáltal, hogy a felismerési kimenetben előforduló hibák detektá- lását megkönnyítette. Vagyis, az írásjelek diktálását lehetővé tevő megközelítés ugyanolyan szóhibaarány mellett alacsonyabb szerkesztési időt eredményezett.

A kísérleteinkben résztvevő diktálási tapasztalattal nem rendelkező felhasználók azonban így is hosszabbnak érzékelték a diktálással és hibajavítással eltöltött időt, mint a szöveg begépelésének időtartama. Ennek egyik lehetséges oka, hogy az írásjelek diktálása szokatlan a felhasználó számára, hiszen a beszélt nyelvre ez nem jellemző. Megoldás lehetne az automatikus írásjelezés, de a legújabb kuta-

(10)

tásokban elért 50% körüli pontossága általános témakörben egyelőre nem valós alternatíva. Az automatikus írásjelezés pontossága kötött témakörnél alkalma- zott gépi tanulási eljárással várhatóan jelentősen fokozható, ahogy a beszédfel- ismerési pontosság is magasabb kötött témájú korpuszon való tanítás esetén.

Végül a hibajavítási felület ergonomikussá tétele és a felismerési hibák automatikus detektálása is lehetőségek a diktálás megkönnyítésében - ebben az irányban további kutatásokat tervezünk.

Köszönetnyilvánítás

Kutatásunkat a PIAC_13-1-2013-0234 (Patimedia) és KMR_12-1-2012-0207 (DIANA) projektek támogatták.

Hivatkozások

1. Tarján B., Nagy T., Mihajlik P., Fegyó T.: Magyar nyelvű, kísérleti e-mail diktá- lórendszer. In: IX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2013), Szeged, Magyarország (2013) 21–28

2. Désilets, A., Stojanovic, M., Lapointe, J.-F., Rose, R., Reddy, A.: Evaluating Pro- ductivity Gains of Hybrid ASR-MT Systems for Translation Dictation. In: Proc.

of IWSLT 2008, Hawaii, USA (2008) 158–166

3. Kolar, J., Lamel, L.: Development and Evaluation of Automatic Punctuation for French and English Speech-to-Text. In: Proc. of Interspeech 2012, Portland, Ore- gon, USA (2012) 1374–1377

4. Batista, F., Caseiro, D., Mamede, N. and Trancoso, I.: Recovering capitalization and punctuation marks for automatic speech recognition: Case study for Portugu- ese broadcast news. Speech Communication, Vol. 50, No. 10 (2008) 847-862 5. Vicsi K., Szaszák Gy., Németh Zs.: Prozódiai információ használata az automa-

tikus felismerésben; mondatmondalitás felismerése. In: V. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2007), Szeged, Magyarország (2007) 69-80 6. D. Yu, M.-Y. Hwang, P. Mau, A. Acero, and L. Deng: Unsupervised learning from

users’ error correction in speech dictation. In: Proc. of Interspeech 2004, Jeju Island, Korea (2004) 1969–1972

7. Leijten, D.J.M., van Waes, L.: Error correction strategies of professional speech recognition users: Three proﬁles. Computers in Human Behavior, Vol. 26 (2010) 964—975

8. Jurafsky, D. and Martin, J.H.: Speech and language processing. An introduction to NLP, computational linguistics, and speech recognition, Englewood Cliﬀs, NJ:

Prentice Hall (2000)

9. Steinberger, R., Eisele, A., Klocek, S., Pilos, S., Schlüter, P.: Dgttm: A freely available translation memory in 22 languages. In: Proc. of LREC 2012 (2012) 454—

459

10. G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, and P. C. Woodland, The HTK Book, version 3.4. Cambridge, UK: Cambridge University Engineering Department (2006)

11. A. Stolcke, Srilm – an extensible language modeling toolkit. In: Proceedings In- ternational Conference on Spoken Language Processing 2002, Denver, USA (2002) 901–904

(11)

12. M. Mohri, F. Pereira, and M. Riley: Weighted ﬁnite-state transducers in speech recognition. Computer Speech and Language, Vol. 16, No. 1 (2002) 69–88