170 XIII. Magyar Számítógépes Nyelvészeti Konferencia

(1)

Mély neuronhálós beszédfelismer®k

GMM-mentes tanítása

GrószTamás

1

,GosztolyaGábor

1,2

, TóthLászló

2

1

Szegedi Tudományegyetem,InformatikaiIntézet

2

MTA-SZTEMesterségesIntelligeniaKutatósoport

e-mail:{groszt,ggabor,tothl}inf.u-szeged.hu

Kivonat Azutóbbi pár évben a beszédfelismer®kben használt rejtett

Markov modellekben (hidden Markov model, HMM) az ún. Gauss-ke-

verékmodell (gaussian mixture model, GMM) komponenst leváltották

amély neuronhálók(deep neuralnetwork, DNN).Ugyanakkorezek az

új,neuronálókra épül® hibrid HMM/DNN felismer®kszámos olyanal-

goritmustmegörököltek,melyeketeredetileg GMM-alapúrendszerekhez

fejlesztettekki,ésígyoptimalitásukazújkörnyezetbennemgarantált.A

HMM/DNNmodellek`GMM-mentes'tanításához kétrészfeladatra kell

újmegoldástadnunk.Azegyik,hogyamélyhálókid®benillesztetttaní-

tóímkéketigényelnek,amásikpedigakörnyezetfügg®állapotokel®állí-

tása,amelyreaklasszikusmegoldásegyGMM-alapúklaszterezésialgorit-

mus.BáraHMM/DNNhibridektanítására léteznekteljesmondatokon

dolgozóún.szekvenia-diszkriminatívtanítóalgoritmusok,ezeketjellem-

z®en sak a tanítás legutolsó fázisában, a modellek nomhangolására

szoktákbevetni,mígatanításelejénHMM/GMM modellekelel®állított

ésillesztettímkékb®lindulnakki.Jelenikkünkbenviszontmegmutat-

juk,hogymegfelel®odagyelésselaszekveniatanulóalgoritmusokata-

nításlegelejét®lhasználhatóak.Azállapotklaszterezésilépésrekorábban

márjavasoltunkegy GMM-mentes megoldást, így a ímkeillesztési fel-

adatmegoldásávalegyteljesenGMM-mentestanításisémáhozjutottunk.

Kísérletieredményeinkaztmutatják,hogyajavasoltmegoldásnemsak

gyorsabb,mintahagyományostanítási módszer,hanemvalamiveljobb

felismerésipontosságotiseredményez.

Kulsszavak:mélyneurálishálók,szekvenia-diszkriminatívtanítás

1. Bevezetés

Abeszédfelismerésbenamélyneuronhálók(deepneuralnetwork,DNN)áttörésé-

velahagyományos,Gauss-keverékmodelleken(gaussianmixture model,GMM)

alapuló rejtett Markov-modellek (hidden Markov model, HMM) helyett most

márazún.HMM/DNNhibridekszámítanakasústehnológiának.Ezenmodel-

lekbetanításaazonbanjelenlegmégtöbbpontonisahagyományosHMM/GMM

modellhez kidolgozott tanítási algoritmusokon alapul. Jelenleg a neuronhálós

GrószTamástazEmberiEr®forrásokMinisztériumaÚNKP-16-3kódszámúÚjNem-

zetiKiválóságProgramjatámogatta.

(2)

HMM/DNNmodelltanításátegyhagyományosHMM/GMMrendszerbetanítá-

sávalkellkezdeni.Ebb®larendszerb®lnyerjükki azutánazokat akeretszinten

illesztett,környezetfügg®állapotímkéket,amelyekaDNNbetanításasoránta-

nításiélkéntszolgálnak.Ezazeljárásegyrészter®forrás-pazarló(aHMM/GMM

rendszertatanítóímkékkinyeréseutáneldobjuk),másrésztsemmisemgaran-

tálja,hogyaGMMhasználatávalkialakítottésillesztettímkékaDNNszámára

isoptimálisaklesznek.Akétfeladatazállapotímkékid®beliillesztéseéskör-

nyezetfügg®ímkékkévaló konvertálásaközülaz utóbbira korábban márad-

tunkegyGMM-mentesmegoldást[1℄,ígyebbenaikkbenamásikproblémára,

azazazállapotímkékkezdetiid®beliillesztésérekonentrálunk.

A HMM/DNN modellek DNN komponensének betanítása legegyszer¶bben

úgy történhet,ha rendelkezésreállnakid®benillesztett tanítóímkék, ekkor u-

gyanis a tanulás során használhatunk olyanklasszikus hibafüggvényeket,mint

példáulakeresztentrópia(ross-entropy,CE).A legtöbbszörazonbanatanító-

adatokhozsak mondatszint¶átiratokatkapunk, abeszédhangok id®beli illesz-

tésenemállrendelkezésre.AHMM/GMMmodelleknekmegvanatenhológiája

az id®beliillesztésekel®állítására,melyet gyakran `atstart' tanításkéntemle-

getnek [2℄.Ezazösszesbeszédhang-modelltazonosparaméterekkeliniializálja,

ami lényegébenmegfelel ahanghatárok id®ben egyenletes felosztásának.Innen

kiindulvaaHMM-ekklasszikusBaum-Welhtanítóalgoritmusaiteratívantanítja

ésújraillesztiamodellímkéit.Hasonló,iteratívtanításonésújraillesztésenala-

pulóproedúráttermészetesenkilehetalakítaniaDNN-tanításhozis,akárajól

bevált CE-hibafügvényreépítkezve.Senioréstsai.példáulvéletlenszer¶eninii-

alizáltneuronhálóvalteszikezt [3℄,míg Zhangés tsai.kiindulásként egyenletes

beszédhang-szegmentálástalkalmaznak[4℄.Ezekamegoldásokm¶köd®képesek,

demintlátnifogjuk,relatívelassankonvergálnak,azazsoktanítási-újraillesztési

iklustigényelnek.

A fenti eljárásokmegoldják ugyana ímkék illesztését, de továbbra is egy

adatkeretekszintjéndeniálthibafüggvénythasználnak.Eznemoptimális,mivel

afelismerésésakiértékelésismondatszintentörténik. AHMM/GMM-ekköré-

ben számos mondatok szintjén deniált, más szóval szekvenia-diszkriminatív

hibafüggvényt javasoltak, és ezek jó részét adaptálták is HMM/DNN hibri-

dekre [5,6,7℄. A legismertebb ilyen tanítási kritérium a kölsönös informáió

maximalizálásán alapuló `maximum mutual information', vagy röviden MMI-

hibafüggvény[5℄.Alegtöbbszerz®azonbanaszekvenia-diszkriminatívtanítást

sakatanítási folyamat legvégén,amárbetanított modelleknomhangolására

alkalmazza.Magyarul,az els®lépésmindigegy CE-hibafüggvényenalapulóta-

nítás(pl.[5,6,8,9,10,11℄).

Az ún. `neuronhálósid®beli osztályozás' (onnetionist temporal lassia-

tion, CTC) az utóbbi néhányévben vált népszer¶véDNN-ek sorozatokonvaló

tanításáraolyanesetben,amikor id®ben illesztettímkéknem állnakrendelke-

zésre [12℄. Rao és tsai. javasoltak is egy `at start' tanítási eljárást, amely a

CTC-n alapul [13℄. A CTC tehnológiának azonban több hátránya is van az

MMI-tanításhoz képest. El®ször is, aCTC aszokványos állapotímkék mellett

üresímkéketiselhelyez,amelyekkelaztánvalamitkezdenikellkés®bb,akörnye-

(3)

zetfügg®állapotokkialakításasorán.Másodszor,aCTC maganem szekvenia-

diszkriminatív módszer, ígyalegjobberedményeketakkor adja, ha ilyen hiba-

függvényekkelkombinálvahasználják[12,13℄.

A korábbi szerz®kkel ellentétben mi egy olyan tanítási eljárásra teszünk

javaslatot, amely a tanítás legelejét®l kezdve szekvenia-diszkriminatív hiba-

függvényt használ. Ehhez a szokványos alkalmazáshoz képest több apró mó-

dosításra lesz szükség, amelyeket részletesen bemutatunk. A kísérletek során

az általunk javasolt megoldást a Zhang és tsai. ikke alapján megvalósított,

CE-hibafüggvényen alapuló iteratív újratanítási-újraillesztési megoldással vet-

jük össze [4℄. Eredményként azt kapjuk, hogy ami megoldásunk gyorsabb, és

az elértszószint¶hibaarányis valamivelkisebb. Tanításimódszerünket kombi-

náljukakorábban javasolt állapotklaszterezésialgoritmusunkkal[1℄, ígyavég-

eredményként kapott tanítási eljárás összes lépése mentes lesz a GMM-alapú

tehnológiától.

2. HMM/DNN felismer®k `at start' tanítása

A HMM/DNN felismer®ktanításael®tt egy HMM/GMM rendszert szokás be-

tanítani,ésezzelállíthatóak el®aDNNtanításáhozszükséges,id®benillesztett

állapotímkék.A ikkben két olyanmódszertfogunk összehasonlítani,amelyek

GMM használata nélkül képesek ugyanezt a feladatot elvégezni. Összehason-

lítási alapként egy olyan algoritmus fog szolgálni, amely iteratívan ismétl®d®

tanítási-újraillesztési iklusokat végez a HMM/DNN modellel, melynek DNN

komponenséthagyományos,keretalapúCE-hibafüggvénnyeltanítja.Sajátmeg-

oldási javaslatunk ezzel szemben a DNN tanítására szekvenia-diszkriminatív

hibafüggvényt fog használni, mégpedig a talán legismertebb ilyet, a korábban

már említett MMI-hibafüggvényt [5℄. Az MMI-hiba `at start' tanításra való

használatatöbb aprómódosítástfogigényelni,ezeketa3.fejezetben be fogjuk

mutatni.

2.1. Iteratív CE-tanításésújraillesztés

AzösszehasonlításialapkéntszolgálómegoldásaCEtanulási kritériumothasz-

náljaaDNNtanításáraolymódon,hogyaímkéketid®nkéntújrailleszteni,majd

atanítástmegismétli.AzalgoritmusimplementálásasoránZhangéstsai.ikkét

próbáltukkövetni[4℄:

1. Ahangfájlokhozaímkéketegyenletesid®közökrebontássalrendeljükhozzá,

majdbetanítjukaDNN-t.

2. Az aktuális DNN-t használva újraillesztjük a ímkéket aHMM/DNN mo-

dellel.

3. A régiDNN-teldobvaújhálóttanítunkazújímkehatárokkal.

4. A 23lépéseket konvergeniáigismételgetjük.

(4)

Afentieljárás végénkapott DNN-t használjukaímkékid®beliillesztésére,

ez alapján a környezetfügg® modellek kialakítására, majd ezek segítségével a

véglegesDNNbetanítására.

Afentismertetetteljárásel®nye,hogyaszokványosCE-hibafüggvénymellett

nemigényliújhibafüggvényimplementálásátatanításhoz,azújraillesztéstpedig

standard beszédfelismerési eszközökkelmeg lehet oldani. A módszer hátránya,

hogy az újratanítás-újraillesztésismételgetése elég id®igényes,amint majd azt

a6.fejezetbenlátnifogjuk.

2.2. Szekvenia-diszkriminatív tanítás az MMI-hibafüggvénnyel

A hagyományos HMM/GMM modellek szekvenia-diszkriminatívtanítása ma

már sztenderdnek számít. Többféle hibafüggvényt is javasoltak eélra [14℄, és

ezeket már a HMM/DNN modellekre is átültették [5,6,10,15℄. A legrégebbi és

legegyszer¶bbilyenhibakritérium amaximáliskölsönösinformáió(maximum

mutual information, MMI) hibafüggvény. Az MMI függvény a jellemz®vektor-

sorozatésahozzárendeltallapotsorozatkölsönösinformáiójátméri.Ajellem-

z®vektoroksorozatáraaz

O u = o u1 , . . . , o uT u

^, ^az

u

^mondathoz ^tartozó^szósoro-

zatra pedig a

W u

^jelölést ^használva, ^az MMI-hibafüggvényt az alábbi módon formalizálhatjuk:

F M M I = X

u

log p(O u |S u ) ^α p(W u ) P

W p(O u |S) ^α p(W ) ,

⁽¹⁾

ahol

S u = s u1 , . . . , s uT u

^a

W u

^-hoz^tartozóállapotsorozat,

α

^pedig^az^akusztikus

modell súlya. A nevez®ben található összegzés az

u

^mondatra felismerési ki- menetkéntkapottlegvalószín¶bbbeszédhang-sorozatokattartalmazzaeztúgy

kaphatjuk meg,hogy egyetlen kimenet helyett ún. szóhálót(lattie) generálta-

tunkafelismer®vel.Az(1)egyenletetderiválvaa

log p(o ut |r)

log-likelihoodérték szerint

r

^állapotban^és

t

id®pillanatban,aztkapjuk,hogy

∂F M M I

∂ log p(o ut |r) = αδ r;s ut − α P

W :s t =r p(O u |S) ^α p(W ) P

W p(O u |S) ^α p(W )

⁽²⁾

= α δ r;s ut − γ _ut ^DEN (r) ,

ahol

γ _ut ^DEN (r)

^a

t

id®pillanatbanaz

r

^állapotban^valótartózkodásvalószín¶sége anevez®höztartozófelismerésiszóhálónszámolvaamitaHMM-ekszokványos

`el®re-hátra' algoritmusával kaphatjuk meg , a

δ r;s ut

^pedig ^a Kroneker-delta függvény(ezadjamega0-1jelleg¶tanításiélvektorokat).

3. Flat start tanítás az MMI-hibakritériummal

A szekvenia-diszkriminatívtanítási kritériumokat, így például az MMI hiba-

függvénytmostanramárszéles körben használjákaHMM/DNN hibridektaní-

tására. Tapasztalatunkszerintazonban atanítástminden szerz®aCE-hibakri-

tériummal kezdi el,ésaszekvenia-diszkriminatívhibakritériumotsak ataní-

tás végs® fázisában vetik be, pusztán a modellek nomhangolására használva

(5)

azt[6,10℄.EzesetbenviszontaCE-tanításmiattmindenképpenszükségvanva-

lamilyen módszerre az id®illesztetttanítási élvektorokel®állítására.Ezekkel a

szerz®kkelszembenmiaztállítjuk,hogyaz MMIélfüggvénytrögtönatanítás

elejét®l kezdvelehet használni, ígya CE-tanulás,illetveezáltal az ehhez szük-

séges illesztettímkékel®állítása kihagyható. A módszerünk m¶köd®képessége

érdekébenazalábbiapróváltoztatásokatkellettelvégeznünk.

Els®ként,a(2)egyenletszámlálójábana

δ r;s ut

^értékek^helyett^a

γ _ut ^{N U M} (r)

^ér-

tékeketfogjukhasználni,amitazel®re-hátraalgoritmussalszámolunkki.Ennek

el®nye,hogybináris értékekhelyett0-1 közötti valószín¶ségiértékekkeldolgoz-

hatunk,ígykihagyhatjuka(szokásosanGMM-alapú)ímkeillesztésilépést. Ezt

a megoldási lehet®séget több tanulmányban is említik (pl. [6,15℄), de egyedül

Zhouéstsai.ikkébentaláltuknyomát,hogyvalakimegisvalósította[8℄.Azon-

banatanítási folyamatot®kisCE-tanítássalindítják,azazazáltalunkjavasolt

atstartMMI-tanítástnempróbáljákki.

Mivel a szekvenia-diszkriminatív tanítási kritériumot a kész rendszer -

nomítására szokták használni, az MMI-élfüggvényt a teljes felismer®vel, azaz

környezetfügg®beszédhang-modellekésszószint¶nyelvi modellmellettszámol-

ják ki. A (2) egyenlet nevez®jének kiszámolása a teljes felismerési proedúra

lefuttatását igényli, ami ateljes modell használata mellettnagyon lassú.Emi-

attaszámlálóhozésnevez®hözszükségeshálókleszámolásátsakegyszerszok-

ták elvégezni, méghozzá az MMI-tanítás elindítása el®tt. Ezzel szemben mi a

szekvenia-diszkriminatívtanulástszószint¶helyettpusztánfonetikaiszint¶szó-

tárralvégezzük,ráadásulkörnyezetfügg®helyettkörnyezetfüggetlenbeszédhang-

modellekkel.Ekétváltoztatásnagyongyorsdekódolástteszlehet®vé,ígyaszám-

lálótésnevez®tmindenegyesmondatutánújratudjukszámolni.Ezamódosítás

kulsfontosságúazeljárásunk gyorskonvergeniájaszempontjából.A szószint¶

átiratokfonetikaiátirattákonvertálásáraaHTKrendszerbenjavasolttehnikát

használtuk,azazels® körbenahangsorozatotaz egyesszavakfonetikaiátiratát

behelyettesítvekapjukmeg,aszavakközéseholsemrakunksendet.Azesetleges

kiejtésvariánsokat,illetveaszavak közti sendetnéhányiteráió utánillesztjük

be,újraillesztéstvégezveamárrelatíveelfogadhatószintenbetanultmodellel[2℄.

További nomítás, hogy a fonetikaidekódolás során nem használjuk sem a

hangokapriorivalószín¶ségét,sembigramotvagyegyéb,összetettebbnyelvimo-

dellt,emiatta(2)egyenletb®laz

α

^tag^iselhagyható.Emellett,aszámításiigény továbbisökkentéseérdekébena

γ _ut ^DEN (r)

^értékközelítéséreahálózatösszesút- vonalánakgyelembevételehelyett sakalegvalószín¶bb felismerésiútvonalat

használtukfel (eztaközelítéstjelölia

γ ˆ _ut ^DEN (r)

^formula).

Ezekkelamódosításokkalaélfüggvénygradienseazalábbimódonalakul:

∂F M M I

∂a ut (s) = X

r

∂F M M I

∂ log p(o ut |r)

∂a ut (s)

⁽³⁾

= γ _ut ^{N U M} (s) − γ ˆ _ut ^DEN (s),

amit pedig már közvetlenül tudunk használni aDNN tanításasorán. Neuron-

hálók tanításánáljól ismerttehnika,hogy atanítóhalmazegy kisrészétfélre-

tesszükvalidálási élra.Ha azaktuális tanításiiteráió utánahibanövekedne,

(6)

(1) Akeretektanítási élértékét(

γ ut ^{N U M} (r)

^-t) ^azel®re-hátra algoritmussal hatá- rozzukmeg.

(2) Beszédhang-szint¶ átiratokkaléskörnyezetfüggetlen beszédhang-modellekkel

dolgozunk.

(3) Nemhasználunkapriorivalószín¶ségeket,semnyelvimodellt.

(4)

γ ^DEN ut (r)

^értékét ^a legvalószín¶bb felismerési útvonal valószin¶ségével (

ˆ γ ut ^DEN (r)

⁾közelítjük.

(5) Atanítás hibáját avalidáiós halmazonmérjük,éshaez ahiba növekedne,

akkor visszatérünk az iteráió el®tti paraméterekhez, viszont sökkentjüka

tanulásirátát.

1.táblázat.A `atstart MMI'tanításhozjavasolt módosításainkösszegzése.

akkor asúlyokat viszaállítjukaziteráió el®ttire,ésatanítástinnenfolytatjuk

egykisebbtanulásirátával.Ezamódszerszekvenia-diszkriminatívtanításese-

tén is természetes módon alkalmazható [5℄, s®t, úgytaláltuk, hogya at-start

tanításimódszerünkstabilitásábanennekalépésneknagyonfontosszerepevan,

mivelsegítelkerülniaz elakadásokat.

AzMMI-kritériumhasználatáhozjavasoltmódosításainkata1.táblázatban

öszszegezzük. Az(1)-(4) módosítási javaslatok egyrésztgyorsítjákafelismerési

folyamatot, másrészt növelik annak hibákkal szembeni robusztusságát. A (2)

pont kulsfontosságúszerep¶ abban,hogy aszekvenia-diszkriminatívtanulást

a tanulási folyamat elejét®l, még a környezetfügg® modellek kialakítása el®tt

alkalmaznitudjuk. Végezetül,az (5)pont segítaz elakadási problémákkikerü-

lésében,feloldásában.

4. KL-divergenia alapú állapotkapsolás

Amikor a at start tanítás konvergált, azaz megkaptuk a környezetfüggetlen

(ontext-independent,CI)modelleklegjobbid®beliillesztését,következhetakör-

nyezetfügg®(ontext-dependent,CD) modellekkialakítása. Jelenlegerre aleg-

elterjedtebbmegoldásazún.döntésifa-alapúállapotklaszterez®algoritmus[16℄.

Ez az algoritmus összegy¶jti az egyes beszédhang-állapotok összes, különböz®

kontextusokbanel®fordulópéldányát, majdmindenegyessomópontbanketté-

osztvaeztahalmazt,felépítegydöntésifát,bizonyosel®redeniáltkérdéseketkö-

vetve.AkettéosztáshozGauss-görbétillesztazaktuálisadatokeloszlására,majd

az alapjána kérdés alapján osztjakettéa somópontot, amelyikalegnagyobb

növekedést eredményezi aGauss-görbékilleszkedésében (likelihood-értékében).

Habárez azalgoritmusremekülm¶ködikGMM-alapúakusztikusmodellekese-

tén, megkérd®jelezhet®, hogy aGauss-görbékilleszkedése mennyire alkalmasa

mélyneuronhálókkalvalómegtanulhatóságmérésére.

A fentiek miatt javasoltunk egy olyan alternatív megoldást, amely Gauss-

görbék illesztése helyett betanít egy segéd-neuronhálót, majd ennek kimeneti

(7)

értékeialapján végzi el adöntési fa felépítését. Mivel a neuronháló-kimenetek

egydiszkrétvalószín¶ségieloszlásbólvettmintáknaktekinthet®k,ezenkimeneti

vektorokösszehasonlításáratermészetesmódon adódikaz ún.Kullbak-Leibler

(KL)divergenia.Ígyazállapotklaszterezésialgoritmustvezérl®,Gauss-görbékre

felírttávolságfüggvénytleseréltükegyKL-divergeniánalapulódöntésikritéri-

umra, Imseng és társainakikkét követve[17℄. A döntési függvényleserélésén

túladöntésifa-építésimehanizmusváltozatlanmarad,ígyakorábbiimplemen-

táiókkönnyenmódosíthatók.EzzelamegoldássalnemsakelimináltukaGauss-

görbéket az állapotklaszterezésifolyamatból, de még

4%

^relatív ^javulást^is ^el-

értünkaszószint¶hibában.Azalgoritmusrészleteitkorábbanmárpublikáltuk,

lásd[1℄.

5. Kísérleti beállítások

Kísérleteinkparaméterezése lényegébenmegegyezikakorábbiikkeinkbenleír-

takkal[1℄.Akusztikusmodellkéntegyötrejtettréteg¶mélyneuronhálóthasznál-

tunk,melynekmindenrétege1000`egyenirányított'(retier)neuronttartalma-

zott[18℄,mígakimenetirétegbensoftmaxaktiváiósfüggvénytalkalmaztunk.A

modellsajátneuronhálóssomagunkraépült,mellyelkorábbankiemelked®ered-

ményeketértünkeltöbbkülönböz®feladatonis([19,20,21,22℄).Jellemz®készlet-

ként egy 40-sávos mel-sz¶r®készletenergiakimeneteit használtuk, aszokványos

els® és második derivált értékeivel kiegészítve. A felismerést és kiértékelést a

HTKprogramsomagmélyhálókhozigazítottverziójávalvégeztük [2℄.

Beszédkorpuszkénta`Szeged'híradósbeszédadatbázisthasználtuk,amely28

órányi híradófelvételttartalmaz nyol tévésatornárólrögzítve[23℄. Tanítóhal-

mazként egy kb. 22 órányi részt különítettünk el, míg 2 órányi adatot hasz-

náltunk validáiós avagyfejlesztési (development)halmazként,4 órányitpedig

tesztelésre. Nyelvi modellkéntegy sztenderd trigram modell szolgált, a kiejtési

szótár sz¶k ötszázezer szóalakot tartalmazott. Az állapotklaszterz® algoritmus

paramétereit úgyállítottuk be, hogya különböz® kísérletekbennagyjából 600,

1200,1800,2400,3000,illetve3600kapsoltállapototkapjunk.

Abeszédhang-modellekkezdeti illesztésére négyfélemódszert próbáltunkki

éshasonlítottunkössze.Els®kéntegyhagyományos,GMM-alapúrendszerttaní-

tottunkbe,ésezzelállítottukel®azid®benillesztettCIímkéket.Ezutánazígy

kapottállapotímkékenbetanítottunkegyszimpla(azaznemmély)neuronhálót

aCE-kritériummal,ésazígykapotthálóvalújraillesztettükaímkéket(korábbi

tanulmányunkbanazt kaptuk, hogyszimpla helyett mély hálót használvanem

javulnakazeredmények[1℄).AtáblázatokbanerreamódszerreGMM+ANN

jelöléssel fogunk hivatkozni. Az újraillesztés után a CD modellek el®állítására

mindaGMM-alapú,mindaKL-kritériumalapúmegoldástkipróbáltuk,aholaz

utóbbiesetbentermészetesenaneuronhálókimeneteszolgáltinputként.

MígafentimegoldásegyGMM-alapúrendszerb®lindultki, `GMM-mentes'

megoldásként a 2. és 3. fejezetekben ismertetett algoritmusokat vetettük be.

Ezekbenakísérletekbenaneuronhálómindigmélyhálóvolt,ötrejtettréteggel.

AziteratívCE-tanításonésújraillesztésenalapulómódszeresetében(atáblázat-

(8)

600 1200 1800 2400 3000 3600 Állapotszám

16 16.5 17 17.5 18

GMM + ANN Iteatív CE MMI MMI + CE

1. ábra. Szószint¶ hibaarány a KL-klaszterezéssel kapott állapotok számának

függvényében,afejlesztésihalmazon.

ban Iteratív CE) négy tanítási-újraillesztésiiklust futtattunk, az ezt követ®

állapotklaszterezéssoránpedigaKL-divergeniaalapúmódszerthajtottukvégre

avégs®neuronhálóáltaladottillesztésen.AzMMI-tanításesetén(atáblázatban

MMI)szinténvéletlensúlyokkaliniializáltmélyhálóbólindultunkki,melyeta

korábbanismertetettmódontanítottunk.Avégeredménykéntel®állóDNNszol-

gáltattaaz inputot arákövetkez®,KL-divergeniaalapú klaszterezésilépéshez.

Végezetül, a negyedik kísérletben a szekvenia-diszkriminatív MMI-tanítással

kapott illesztett ímkékenlefuttattunk mégegy CE-tanítást, ésennekkimene-

tén végeztük el aKL-kritériumalapú klaszterezést(MMI + CE). Tettük ezt

azért,mertazt tapasztaltuk,hogyaCE, illetveazMMIkritérium eléggéeltér®

valószín¶ségi eloszlásokat eredményez, ezért kívánsiak voltunk, hogy vajon a

klaszterezéstezhogyanbefolyásolja.

Cikkünkf®éljaa`at-start'lépés,azazakezdetiímkeillesztéseketel®állító

lépéskülönböz®változatainakösszehasonlításavolt.Ezértazállapotklaszterezés

után el®álló CD-modelleket már sak az egyszer¶bb CE-kritériummal tanítot-

tuk.Természetesenezeketamodellekettanításutántovábblehetnenomítania

szekvenia-diszkriminatívtanításbevetésével. Ezzel vélhet®enkisit jobbered-

ményeket kapnánk ugyan, de mivel ez egy sztenderd eljárás, ezért ett®l jelen

ikkbeneltekintettünk.

6. Kísérleti eredmények

Akülönböz®módszerekkelkapottszószint¶hibaarányokalakulásátafejlesztési

halmazon az 1. ábra mutatja, különböz® állapotszámok esetére. Mint látható,

a GMM-alapú módszer messze a legrosszabbul teljesített, míg az MMI-alapú

(9)

Flatstart Állapotkapsolási Szóhiba(%) Iteráiók

módszer módszer Dev. Teszt száma

GMM+ANN GMM 18.83% 17.27%

GMM+ANN KL 17.12% 16.54%

IteratívCE

KL

16.81% 16.50% 48

MMI 16.50% 15.96% 13

MMI+CE 16.36% 15.86% 29

2. táblázat. Szószint¶ hibaarány a különféle `at start' illetve állapotkapsolási

stratégiákesetén.

at start eljárás minden esetben kissé jobb eredményeket adott, mint az ite-

ratív megoldás. Habár az MMI-t követ® CE tanítás (az `MMI+CE'-vel jelölt

modell) kisebb állapotszám mellett némileg jobberedményeket adott, ez aja-

vulás nem jelent®s annyira, hogy megérje a többletid®t. Mindez azt mutatja,

hogy a szekvenia-diszkriminatívtanítás egyarántpontos id®illesztéseket ésjó

valószín¶ségibesléseketeredményez.

A 2. táblázat összesíti a különböz® konguráiókkalelért legjobb szóhiba-

arányokat a fejlesztési és teszthalmazokon. Az állapotklaszterezési módszerek

közül aKL-divergenia alapú megoldás minden esetben egyértelm¶en túlszár-

nyaltaaGMM-alapúmódszert.Azillesztésitehnikákatösszevetveaztláthatjuk,

hogy aHMM/GMM rendszerretámaszkodómegoldás bizonyultalegrosszabb-

nak,aminaneuronhálósújraillesztéssemsegített.AziteratívCE-alapútanítási

módszer kisivel rosszabb lett a két MMI alapú megoldásnál. E módszer ese-

ténsajnos elégnehézmegmondani azoptimálisiteráiószámot.Zhangéstársai

20 lépésen át végezték az iteráiót [4℄, míg mi sak 4 lépésig futtattuk. Emi-

att érdemesafutási id®ket isösszevetni, melyértékeka2.táblázat jobbszéls®

oszlopábanláthatók(atanításiiteráiókszámátaGMM+ANN rendszerese-

tében nem tüntettük fel, mivel ott atanítás egy radikálisaneltér® proedúrán

alapult). Az iteratív CE-tanítás 4iteráiót igényelt, összesen48 DNN-tanítási

iklusteredményezve,mígazMMI-tanításenneksakkb. anegyedét.Habáraz

utóbbihozaz el®re-hátraalgoritmuslefuttatásának költségétis hozzákelladni,

ezzelegyüttisegyértelm¶,hogyazMMI-tanításm¶veletigényejóvalkisebb.

Haafutásiid®tDNN-tanításiiklusokhelyettegyszer¶enCPU/GPUid®ben

mérjük, akkor még nagyobb különbségeket kapunk az MMI módszer javára (3

óra 16-tal szemben). Ennek oka, hogy a CE-tanítás során 100-as minibath-

méretethasználtunk,mígazMMI-tanítássoránakötegméretazegyesfelvételek

méretévelegyezettmeg,amiátlagosan1000körülibath-méretet,ésígyaGPU-k

struktúrájamiattgyorsabbvégrehajtásteredményezett.

Álláspontunkszerintmódosításainkközülkett®kulsfontosságúajavasoltal-

goritmusunksebessége ésfutásideje szempontjából.Az els®módosítás, hogyaz

illesztést környezetfüggetlen beszédhang-modellekkel, nyelvi modell nélkül vé-

gezzük. Ez teszi lehet®vé agyors számítást, és ígya élfüggvényben található

(10)

szóhálók frissítését minden egyes mondat feldolgozása után. Az irodalomban

egyetlen olyat ikket találtunk,amelynem sakatanulásiiteráiók végén fris-

síti ezeket ahálókat, ebben aikkben azonban egy masszívanpárhuzamosított

arhitektúrátírnakle,aminagyonnehezenösszevethet®amiszekveniálisalgo-

ritmusunkkal[24℄.

Astabilitástillet®enközismert,hogyaszekvenia-diszkriminatívmódszerek

er®sen hajlamosak a túltanulásra. Az állapotímkék és azok illesztésénekegy-

idej¶ tanulása gyakran vezet az ún.run-awaysilene model esetéhez, amikor

ahosszúsendszakaszokmiattasendheztartozókimenetegyredominánsabbá

válik,majdazillesztéstiselrontva`megeszi'abeszédhang-szakaszokatis[25℄.A

hasonlóesetekelkerüléséreegyfüggetlenvalidáióshalmazonmértükaneuron-

hálóhibáját,éshaahiba azaktuálisiteráió utánmegugrott,akkorakorábbi

súlyok visszaállításautánegy kisebb tanulási rátávalújrapróbáltukatanulást.

Tapasztalatunk szerint ez az egyszer¶trükk sokat segített a hasonló elakadási

jelenségekmegakadályozásában.

7. Konklúzió

Cikkünkben megmutattuk, hogy aHMM/DNNmodellekszekvenia-diszkrimi-

natív tanítását a tanítás legels®, ún. `at start' fázisában is sikeresen lehet

használni. E élra a szokványos MMI tanítási kritériumot alkalmaztuk, míg a

tanítási folyamatban néhány apró módosítást vezettünk be. Kísérleti eredmé-

nyeink azt mutatták, hogy a CE tanítási kritériumon alapuló újratanítás-

újraillesztés stratégiával összevetve az általunk javasoltmegoldás lényegesen

gyorsabb,ésmégaszóhiba-aránytissökkentivalamelyest.Akorábbanjavasolt

KL-divergenia alapú állapotklaszterezési megoldást is bevonva, összességében

egyolyanHMM/DNNtanításialgoritmustadtunk,amelyegyáltalánnemigényli

ahagyományosHMM/GMMmodellekhasználatát.

Hivatkozások

1. Gosztolya,G.,Grósz,T., Tóth,L.,Imseng,D.: Buildingontext-dependentDNN

aousit modelsusing Kullbak-Leiblerdivergene-basedstate tying. In:Proee-

dingsofICASSP.(2015)45704574

2. Young,S.,Evermann,G.,Gales,M.J.F.,Hain,T.,Kershaw,D.,Moore,G.,Odell,

J.,Ollason,D.,Povey,D.,Valthev,V.,Woodland,P.:TheHTKBook.Cambridge

UniversityEngineeringDepartment,Cambridge,UK(2006)

3. Senior, A.,Heigold,G., Bahiani,M.,Liao,H.: GMM-freeDNNaousti model

training. In:ProeedingsofICASSP.(2014)56395643

4. Zhang, C.,Woodland,P.: Standalonetrainingofontext-dependentDeepNeural

Networkaoustimodels.In:ProeedingsofICASSP.(2014)56345638

5. Kingsbury, B.: Lattie-based optimization of sequene lassiation riteria for

neural-networkaoustimodeling. In:ProeedingsofICASSP.(2009)37613764

6. Veselý,K.,Ghoshal,A.,Burget,L.,Povey,D.:Sequene-disriminativetrainingof

deepneuralnetworks. In:ProeedingsofInterspeeh.(2013)23452349

(11)

7. Grósz,T.,Gosztolya,G.,Tóth,L.: AsequenetrainingmethodforDeepRetier

Neural Networks inspeeh reognition. In:Proeedings ofSPECOM, NoviSad,

Serbia(2014)8188

8. Zhou,P.,Dai,L.,Jiang,H.: SequenetrainingofmultipleDeepNeuralNetworks

for better performane and faster training speed. In: Proeedings of ICASSP.

(2014)56645668

9. Saon, G., Soltau,H.: A omparisonof two optimizationtehniquesfor sequene

disriminative training of Deep Neural Networks. In: Proeedings of ICASSP.

(2014)56045608

10. Wiesler,S.,Golik,P.,Shüter,R.,Ney,H.: Investigationsonsequenetrainingof

neuralnetworks. In:ProeedingsofICASSP.(2015)45654569

11. Chen, D., Mak,B., Sivadas,S.: Joint sequenetrainingof phoneand grapheme

aoustimodelbasedonmulti-tasklearningDeepNeuralNetworks.In:Proeedings

ofInterspeeh.(2014)10831087

12. Graves,A.,Mohamed,A.R.,Hinton,G.E.:SpeehreognitionwithDeepReurrent

NeuralNetworks. In:ProeedingsofICASSP.(2013)66456649

13. Rao,K.,Senior, A.,Sak,H.: Flatstart trainingofCD-CTC-SMBRLSTMRNN

aoustimodels. In:ProeedingsofICASSP,Shanghai,China(2016)54055409

14. He, X., Deng, L.: Disriminative Learning for Speeh Reognition. Morgan &

Claypool,SanRafael,CA,USA(2008)

15. Yu,D.,Deng,L.:Chapter8:Deepneuralnetworksequene-disriminativetraining.

In:AutomatiSpeehReognitionADeepLearningApproah.Springer(2014)

16. Young,S.J.,Odell,J.J.,Woodland,P.C.: Tree-basedstatetyingforhighauray

aoustimodelling. In:ProeedingsofHLT.(1994)307312

17. Imseng,D., Dines, J.: Deision tree lustering for KL-HMM. Tehnial Report

Idiap-Com-01-2012,IDIAPResearhInstitute(2012)

18. Glorot,X.,Bordes,A.,Bengio,Y.:Deepsparseretiernetworks. In:Proeedings

ofAISTATS.(2011)315323

19. Tóth,L.: Convolutionaldeepmaxoutnetworksforphonereognition. In:Proee-

dingsofInterspeeh.(2014)10781082

20. Grósz, T., Busa-Fekete,R.,Gosztolya,G., Tóth,L.: Assessingthe degree ofna-

tiveness and Parkinson's ondition using GaussianProesses and DeepRetier

NeuralNetworks. In:ProeedingsofInterspeeh.(2015)13391343

21. Tóth,L.,Gosztolya,G.,Vinze,V.,Homann,I.,Szatlózki,G.,Biró,E.,Zsura,

F., Pákáski, M., Kálmán, J.: Automati detetion of mildognitive impairment

from spontaneous speeh using ASR. In: Proeedings of Interspeeh, Dresden,

Germany(2015)26942698

22. Kovás,Gy.,Tóth,L.: Joint optimizationofspetro-temporalfeatures andDeep

NeuralNetsforrobustautomatispeehreognition. AtaCybernetia22(2015)

117134

23. Grósz, T., Tóth, L.: A omparison of Deep Neural Network training methods

for LargeVoabularySpeehReognition. In:ProeedingsofTSD,Pilsen,Czeh

Republi(2013)3643

24. Bahiani,M., Senior,A.,Heigold,G.: Asynhronous,online,GMM-free training

ofaontextdependentaousti modelfor speehreognition. In:Proeedingsof

Interspeeh,Singapore,Singapore(2014)19001904

25. Su, H., Li, G., Yu,D., Seide, F.: Error bak propagation for sequene training

of ontext-dependentdeep networks for onversational speehtransription. In:

ProeedingsofICASSP.(2013)66646668

170 XIII. Magyar Számítógépes Nyelvészeti Konferencia

1

1,2

2

1

2

O u = o u1 , . . . , o uT u

u

W u

F M M I = X

u

log p(O u |S u ) α p(W u ) P

W p(O u |S) α p(W ) ,

S u = s u1 , . . . , s uT u

W u

α

u

log p(o ut |r)

r

t

∂F M M I

∂ log p(o ut |r) = αδ r;s ut − α P

W :s t =r p(O u |S) α p(W ) P

W p(O u |S) α p(W )

= α δ r;s ut − γ ut DEN (r) ,

γ ut DEN (r)

t

r

δ r;s ut

δ r;s ut

γ ut N U M (r)

α

γ ut DEN (r)

γ ˆ ut DEN (r)

∂F M M I

∂a ut (s) = X

r

∂F M M I

∂ log p(o ut |r)

∂ log p(o ut |r)

∂a ut (s)

= γ ut N U M (s) − γ ˆ ut DEN (s),

γ ut N U M (r)

γ DEN ut (r)

ˆ γ ut DEN (r)

4%

600 1200 1800 2400 3000 3600 Állapotszám

16 16.5 17 17.5 18

GMM + ANN Iteatív CE MMI MMI + CE

log p(O u |S u ) ^α p(W u ) P

W p(O u |S) ^α p(W ) ,

W :s t =r p(O u |S) ^α p(W ) P

W p(O u |S) ^α p(W )

= α δ r;s ut − γ _ut ^DEN (r) ,

γ _ut ^DEN (r)

γ _ut ^{N U M} (r)

γ _ut ^DEN (r)

γ ˆ _ut ^DEN (r)

= γ _ut ^{N U M} (s) − γ ˆ _ut ^DEN (s),

γ ut ^{N U M} (r)

γ ^DEN ut (r)

ˆ γ ut ^DEN (r)